Promptriever : Une nouvelle façon de chercher
Promptriever simplifie la récupération d'infos en suivant les instructions des utilisateurs.
Orion Weller, Benjamin Van Durme, Dawn Lawrie, Ashwin Paranjape, Yuhao Zhang, Jack Hessel
― 6 min lire
Table des matières
Dans le monde des moteurs de recherche, trouver la bonne info peut parfois être galère. Les gens doivent souvent utiliser des mots et des phrases spécifiques pour obtenir les résultats qu'ils veulent. Mais il y a une nouvelle méthode appelée Promptriever qui rend ce processus plus simple. Promptriever est conçu pour non seulement trouver des infos mais aussi suivre des Instructions précises données par l'utilisateur. Ça rend la recherche et la Récupération d'infos beaucoup plus fluides.
C'est quoi Promptriever ?
Promptriever est le premier modèle de récupération capable de répondre à des instructions comme le font les modèles linguistiques, qui sont des outils faits pour comprendre et générer du langage humain. Il a été formé avec un nouvel ensemble de données qui inclut presque un demi-million d'exemples, ce qui lui permet d'être plus efficace que les méthodes traditionnelles tout en suivant des commandes détaillées.
Les avantages d'utiliser Promptriever incluent :
- Meilleur Suivi des Instructions : Il y a une nette amélioration de la précision quand on lui donne des instructions détaillées pour trouver des infos pertinentes.
- Plus de Flexibilité avec le Langage : Il peut gérer différentes façons de demander des infos, ce qui le rend plus résistant aux changements de formulation.
- Performance Améliorée : En utilisant les bonnes instructions, Promptriever peut améliorer sa capacité à trouver les infos que les utilisateurs cherchent.
L'Importance des Instructions en Récupération
En général, les moteurs de recherche se concentrent sur la correspondance des mots-clés de manière simple. Les utilisateurs doivent souvent essayer différents mots et phrases pour trouver les bons résultats. Ça peut être frustrant. Promptriever change la donne en permettant aux utilisateurs d'exprimer leurs besoins dans un langage naturel.
Par exemple, si quelqu'un cherche des films réalisés par James Cameron avant 2022, au lieu de faire plusieurs recherches ou d'utiliser des filtres compliqués, il peut simplement dire : "Je veux des films pas co-réalisés et faits avant 2022." Promptriever ajuste sa stratégie de recherche en fonction de cette instruction, rendant plus facile de trouver exactement ce que l'utilisateur veut.
Création du Dataset d'Instructions
Pour développer Promptriever, les chercheurs ont créé un nouvel ensemble de données qui inclut des instructions pour chaque requête de recherche. Ils ont commencé avec un dataset populaire appelé MS MARCO, qui contient plein de recherches et leurs résultats correspondants. Ensuite, les chercheurs ont généré des instructions pour chaque recherche, ajoutant des exigences et des conditions spécifiques liées à la requête de l'utilisateur.
Ce processus garantit que quand le modèle voit une requête, il a un contexte supplémentaire pour mieux comprendre ce qui est demandé. Ils ont aussi identifié des cas où une paire requête-passage peut sembler pertinente seule mais devient moins pertinente quand des instructions supplémentaires sont appliquées. Ça aide le modèle à adapter sa compréhension de la pertinence en fonction des instructions qu'il reçoit.
Comment Fonctionne Promptriever
Promptriever utilise un type de modèle appelé bi-encodeur. Cela signifie qu'il traite la requête et les infos qu'il récupère de façon à pouvoir comparer et évaluer leur pertinence. En utilisant un grand modèle de langage comme base, il peut répondre aux invites comme d'autres modèles linguistiques.
Avant de s'entraîner sur des tâches de récupération, le modèle peut facilement ajuster ses sorties en fonction des instructions. Mais sans un bon entraînement aux instructions, le modèle échoue souvent à suivre les commandes correctement. L'équipe a garanti cela en incorporant des instructions uniques qui définissent la pertinence pour chaque requête dans un langage courant.
Les Avantages d'Utiliser Promptriever
Les avantages d'utiliser Promptriever vont au-delà du simple suivi des instructions. Voici quelques points essentiels :
- Performance de Pointe : Promptriever a montré qu'il atteint des résultats de premier ordre sur des tâches nécessitant le suivi d'instructions.
- Robustesse Accrue : Il peut gérer efficacement différentes formulations et tournures de phrases, montrant une performance améliorée face à des requêtes variées.
- Recherche de Hyperparamètres Efficace : Promptriever peut ajuster ses paramètres pour de meilleurs résultats de récupération en utilisant des invites, améliorant ainsi la performance sur divers jeux de données.
Évaluation de la Performance de Promptriever
Pour tester Promptriever, les chercheurs l'ont évalué par rapport à d'autres modèles en utilisant divers jeux de données, incluant des tâches standards et spécifiques aux instructions. Les résultats ont montré que Promptriever surpasse ses prédécesseurs tant pour suivre les instructions que pour récupérer des infos pertinentes.
Par exemple, lorsqu'il a été testé contre les jeux de données FollowIR et InstructIR, Promptriever a démontré des améliorations significatives dans sa capacité à suivre des instructions complexes par rapport aux modèles précédents. En plus, il s'est avéré plus fiable et constant face à diverses prompts.
Défis et Travaux Futurs
Bien que Promptriever offre beaucoup d'améliorations, il fait encore face à des défis. Par exemple, les instructions générées doivent être assez précises pour guider efficacement le modèle. De plus, comme pour tous les modèles de langage, il y a des risques d'erreurs et de biais dans les instructions générées, ce qui pourrait affecter les résultats.
En regardant vers l'avenir, il y a plein de possibilités pour améliorer Promptriever. Des recherches supplémentaires pourraient explorer comment mieux affiner le modèle et améliorer son adaptabilité à différents types d'instructions. Il y a aussi un potentiel pour combiner des techniques de suivi d'instructions avec d'autres stratégies de récupération pour créer des modèles encore plus efficaces.
Conclusion
Promptriever représente un grand pas en avant pour améliorer la technologie des moteurs de recherche en permettant aux utilisateurs d'interagir avec des modèles de recherche en utilisant des instructions en langage naturel. Il se démarque par sa capacité à adapter et affiner son processus de recherche en fonction des commandes des utilisateurs, offrant une expérience plus conviviale.
Alors que les moteurs de recherche continuent d'évoluer, Promptriever ouvre la voie à des modèles de récupération plus avancés, garantissant que les utilisateurs peuvent trouver facilement et précisément les infos dont ils ont besoin. L'avenir de la récupération d'infos semble prometteur avec des innovations comme celle-ci en tête.
Titre: Promptriever: Instruction-Trained Retrievers Can Be Prompted Like Language Models
Résumé: Instruction-tuned language models (LM) are able to respond to imperative commands, providing a more natural user interface compared to their base counterparts. In this work, we present Promptriever, the first retrieval model able to be prompted like an LM. To train Promptriever, we curate and release a new instance-level instruction training set from MS MARCO, spanning nearly 500k instances. Promptriever not only achieves strong performance on standard retrieval tasks, but also follows instructions. We observe: (1) large gains (reaching SoTA) on following detailed relevance instructions (+14.3 p-MRR / +3.1 nDCG on FollowIR), (2) significantly increased robustness to lexical choices/phrasing in the query+instruction (+12.9 Robustness@10 on InstructIR), and (3) the ability to perform hyperparameter search via prompting to reliably improve retrieval performance (+1.4 average increase on BEIR). Promptriever demonstrates that retrieval models can be controlled with prompts on a per-query basis, setting the stage for future work aligning LM prompting techniques with information retrieval.
Auteurs: Orion Weller, Benjamin Van Durme, Dawn Lawrie, Ashwin Paranjape, Yuhao Zhang, Jack Hessel
Dernière mise à jour: 2024-09-17 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.11136
Source PDF: https://arxiv.org/pdf/2409.11136
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/orionw/promptriever
- https://huggingface.co/datasets/samaya-ai/msmarco-w-instructions
- https://github.com/beir-cellar/beir/issues/179
- https://github.com/microsoft/unilm/blob/master/e5/utils.py
- https://huggingface.co/BAAI/bge-en-icl
- https://github.com/texttron/tevatron/issues/129
- https://blog.voyageai.com/2024/05/05/voyage-large-2-instruct-instruction-tuned-and-rank-1-on-mteb/
- https://github.com/raghavlite/TDTE