Simple Science

La science de pointe expliquée simplement

# Informatique# Recherche d'informations

Défis et limites des modèles de langage dans la recherche d'information

Évaluer le rôle des modèles de langage dans les jugements de pertinence pour la recherche d'information.

― 7 min lire


Réévaluation des modèlesRéévaluation des modèlesde langage dans larechercheprécis.donner des jugements de pertinenceLes modèles de langage ont du mal à
Table des matières

Faire des Jugements de Pertinence pour les tests en récupération d'information peut être galère et coûteux. En général, une équipe de personnes bosse pendant des semaines pour déterminer si certains documents sont pertinents pour des requêtes spécifiques. Ce processus demande de la formation, du suivi et le développement d'outils logiciels.

Récemment, l'essor des gros modèles de langage a amené les chercheurs à réfléchir à comment ces outils pourraient aider à rassembler des jugements de pertinence. Cependant, il y a de bonnes raisons d'éviter d'utiliser ces modèles pour ces tâches.

Défis de l'évaluation automatique

L'évaluation automatique en récupération d'informations a commencé avec une étude montrant que les gens ont souvent des avis différents sur ce qui est pertinent. Cependant, ces différences n'impactent pas vraiment les classements finaux des Systèmes de récupération d'information dans les Évaluations. Ça soulève la question de ce qui se passerait si on sélectionnait au hasard quels documents labelliser comme pertinents.

Rassembler des documents de différentes sources aide à assurer une évaluation plus complète. Cette méthode permet aux Évaluateurs de voir des documents de différents systèmes et d'avoir une meilleure idée de la pertinence. Cependant, ces approches peuvent souvent mener à des conclusions trompeuses, où les meilleurs systèmes peuvent sembler être les pires si on se fie uniquement à des jugements aléatoires.

La nature de l'incertitude en récupération d'informations

La récupération d'informations est pleine d'incertitudes. On ne peut pas complètement saisir le sens des documents à cause de l'ambiguïté du langage. De même, on ne comprend pas toujours ce que les utilisateurs considèrent comme pertinent, car ça peut changer avec le temps. Les requêtes fournies par les utilisateurs ne traduisent souvent pas correctement leurs besoins, ce qui amène les systèmes à faire des suppositions éclairées.

Les systèmes s'appuient souvent sur des données comportementales pour améliorer la précision, mais ces données viennent aussi avec des incertitudes. Le but des modèles de récupération est de prendre en compte cette incertitude et de fournir les meilleures prédictions de pertinence possibles. Par exemple, certains modèles analysent à quelle fréquence certains termes apparaissent dans des documents pertinents ou non pertinents.

Avec le développement des moteurs de recherche, ils ont commencé à prendre le comportement des utilisateurs en compte comme un facteur important de pertinence. Combiner différentes sources d'information tend à donner de meilleurs résultats que de se fier à une seule.

Évaluation de la performance des systèmes de récupération

En général, un évaluateur humain est demandé pour déterminer si un document est pertinent pour un besoin particulier. Ce jugement humain sert d'proxy pour le système idéal. On suppose que si un système récupère tous les documents que l'évaluateur juge pertinents, alors il fonctionne bien.

Le pooling, dans ce cas, nous permet de revoir suffisamment de documents pour que les évaluations humaines fournissent une évaluation de pertinence plus précise que ce qu'un seul système pourrait accomplir. Ça signifie qu'on prend un échantillon d'incertitude et qu'on le traite comme vrai pour les besoins de l'évaluation.

Bien que d'autres méthodes puissent aider à traiter l'incertitude, elles dépendent souvent encore des évaluations humaines. Si on a plusieurs jugements sur la pertinence, on peut estimer à quel point un système performe basé sur les avis variés.

Lien entre récupération et évaluation

Les systèmes de récupération et les jugements de pertinence sont étroitement liés. Les deux processus impliquent de prédire la pertinence basée sur les données disponibles. Pendant la phase d'évaluation, les évaluateurs déterminent si les documents sont pertinents, ce qui peut aussi être considéré comme un type de prédiction.

Des erreurs peuvent se produire dans les systèmes de récupération comme pendant les évaluations. Quand on compare les sorties d'un système avec un ensemble de jugements de pertinence, on traite en gros ces jugements comme la vérité, même s'ils ne reflètent pas l'ensemble du tableau.

Dans certains cas, il peut être possible d'inverser cela : on pourrait traiter la sortie du système comme vraie et évaluer la précision des évaluateurs. Puisque les systèmes de récupération et les évaluateurs humains font tous deux des prédictions sur la pertinence, c'est juste de dire que l'évaluation et la récupération sont deux faces de la même pièce.

Limitations de l'utilisation des modèles de langage

Quand un système est évalué par rapport à des jugements de pertinence générés par un modèle de langage, il fait face à des restrictions intégrées. Si le modèle est considéré comme idéal, alors tout système qui fonctionne mieux que ce modèle ne montrera pas cette amélioration dans les évaluations. Ça peut créer une situation compliquée où de nouveaux et meilleurs systèmes semblent performer mal simplement parce qu'ils récupèrent des informations qui n'ont pas été jugées pertinentes par le modèle.

Les modèles de langage, bien que prometteurs, font aussi partie des mêmes défis d'évaluation. S'ils sont utilisés pour développer les jugements de pertinence, les systèmes évalués sous-performeront inévitablement par rapport à leurs vraies capacités.

De plus, les évaluateurs humains ne sont pas parfaits ; ils peuvent et font des erreurs. Même avec les meilleures intentions, leurs évaluations varieront, entraînant des jugements inconsistants entre les différents évaluateurs. Ça montre les limites inhérentes à la création d'une norme fiable pour mesurer la performance.

L'idéal faux de la performance surhumaine

Si on croit qu'un modèle peut mieux performer qu'un évaluateur humain, on se retrouve face à un paradoxe. Le système sera toujours évalué en utilisant des jugements humains, ce qui signifie qu'il ne peut pas dépasser la performance de ces jugements. Ça rend impossible de mesurer d'éventuelles améliorations qui pourraient venir de l'utilisation de systèmes ou de modèles plus avancés.

En réalité, tout système qui prétend être surhumain sera souvent noté plus bas que sa performance réelle à cause des restrictions imposées par les jugements de pertinence humains. Ça peut créer de la confusion, car il peut sembler que les nouveaux systèmes échouent alors qu'en fait, ils font simplement des hypothèses différentes sur la pertinence.

À la recherche de meilleures approches

Ça ne veut pas dire que les modèles de langage sont inutiles dans les efforts d'évaluation. Bien que les utiliser pour créer une vérité de base pour la pertinence puisse mener à de mauvaises mesures, il y a encore des manières de tirer parti de leurs capacités. Par exemple, utiliser des modèles de langage pour aider les évaluateurs humains peut aider à identifier des erreurs dans les jugements sans être le dernier arbitre de la vérité.

De plus, améliorer les études utilisateurs ou aider les chercheurs à coder des observations pourrait être des applications précieuses pour les modèles de langage. Dans ces scénarios, les modèles ne sont pas des systèmes en boucle fermée générant leurs propres données de vérité, mais soutiennent le processus d'évaluation de l'extérieur.

Conclusion

En résumé, utiliser des modèles de langage pour créer des jugements de pertinence comporte des limitations inhérentes. Ils peuvent restreindre les évaluations à ce que le modèle peut évaluer, bloquant ainsi le chemin pour mesurer de possibles améliorations.

Les modèles pourraient aussi contribuer à des défis d'évaluation lorsqu'ils font partie des systèmes évalués, menant à des résultats trompeurs. Utiliser des modèles de langage dans des rôles de soutien plutôt qu'en tant qu'évaluateurs principaux pourrait se révéler être une meilleure approche. En maintenant les modèles séparés de la vérité de base, on peut assurer des évaluations plus fiables à l'avenir.

Source originale

Titre: Don't Use LLMs to Make Relevance Judgments

Résumé: Making the relevance judgments for a TREC-style test collection can be complex and expensive. A typical TREC track usually involves a team of six contractors working for 2-4 weeks. Those contractors need to be trained and monitored. Software has to be written to support recording relevance judgments correctly and efficiently. The recent advent of large language models that produce astoundingly human-like flowing text output in response to a natural language prompt has inspired IR researchers to wonder how those models might be used in the relevance judgment collection process. At the ACM SIGIR 2024 conference, a workshop ``LLM4Eval'' provided a venue for this work, and featured a data challenge activity where participants reproduced TREC deep learning track judgments, as was done by Thomas et al (arXiv:2408.08896, arXiv:2309.10621). I was asked to give a keynote at the workshop, and this paper presents that keynote in article form. The bottom-line-up-front message is, don't use LLMs to create relevance judgments for TREC-style evaluations.

Auteurs: Ian Soboroff

Dernière mise à jour: Sep 23, 2024

Langue: English

Source URL: https://arxiv.org/abs/2409.15133

Source PDF: https://arxiv.org/pdf/2409.15133

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires