Defining an Optimal Configuration Set for Selective Search Strategy – A Risk-Sensitive Approach

Un moteur de recherche applique généralement une stratégie de recherche unique à toute requête d’un utilisateur. La recherche combine de nombreux processus (par exemple, l’indexation, l’expansion de la requête, le modèle de pondération de la recherche, le classement des documents) et leurs hyperparamètres, dont les valeurs sont optimisées sur la base des requêtes passées, puis appliquées à toutes les requêtes futures.

Cependant, même un système optimisé peut avoir des performances médiocres sur certaines requêtes, alors qu’un autre système peut avoir de meilleures performances sur ces mêmes requêtes. La stratégie de recherche sélective vise à sélectionner la combinaison de composants et de valeurs d’hyperparamètres la plus appropriée à appliquer pour chaque requête individuelle. Le nombre de combinaisons est potentiellement très grand. Pour s’adapter au mieux à toute requête, le système idéal devrait utiliser de nombreuses combinaisons. Dans le monde réel, il serait trop coûteux d’utiliser et de maintenir des milliers de configurations. Il faut donc trouver un compromis entre les performances et le coût.

Dans cet article, nous décrivons une approche sensible au risque pour optimiser l’ensemble des configurations qui doivent être incluses dans une stratégie de recherche sélective. Cette approche résout le problème du choix et du nombre de configurations à inclure dans le système. Nous montrons que l’utilisation de 20 configurations permet d’obtenir une efficacité supérieure à celle des approches actuelles d’environ 23 % par rapport à l’ordonnancement des documents par apprentissage (L2R) et d’environ 10 % par rapport aux autres approches sélectives. Les évaluations ont été réalisées sur trois collections de référence TREC – Text REtrieval Conference. Cette approche elle offre également un bon compromis entre la complexité et l’efficacité du système.

Pour plus d’information, retrouvez la publication ICI.