Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

NovelQA : Une nouvelle référence pour la compréhension de longs textes

Évaluer les LLM sur leur capacité à traiter de longs textes en littérature.

― 7 min lire


Évaluation de laÉvaluation de lacompréhension de longstextescomplexes.longues narrations et des questionsÉvaluer les capacités des LLM avec des
Table des matières

Ces dernières années, les grands modèles de langage (LLMs) sont devenus de plus en plus avancés et capables, surtout pour traiter de longs Textes. Mais évaluer à quel point ces modèles comprennent et traitent ce long contexte reste un vrai défi. Pour s'attaquer à ce problème, un nouveau benchmark appelé NovelQA a été introduit. Ce benchmark est conçu pour tester à quel point les LLMs peuvent comprendre et répondre à des Questions sur des textes longs, en particulier des romans anglais. En utilisant une sélection de romans, NovelQA offre un moyen unique et stimulant d'évaluer la profondeur de compréhension que ces modèles peuvent atteindre.

Pourquoi le long contexte est important

Comprendre de longs textes est important pour plusieurs raisons. D'abord, beaucoup de tâches nécessitent la compréhension de documents longs, comme des papiers juridiques, des histoires ou des articles académiques. Ce type de compréhension demande aux modèles de faire sens non seulement des phrases individuelles, mais aussi de la façon dont ces phrases se connectent pour former une narration plus large. La capacité d'analyser plusieurs longs documents en même temps est aussi utile pour prendre de meilleures décisions dans divers domaines.

Le défi de l'évaluation

Pour l'instant, évaluer à quel point les LLMs comprennent les longs textes est difficile. Les benchmarks existants ne correspondent pas vraiment aux capacités des modèles actuels. À mesure que ces modèles progressent, leur capacité à traiter des sections plus longues de texte augmente, mais beaucoup de tests ne se concentrent pas sur cet aspect. Par exemple, les modèles récents peuvent gérer plus de 250 000 tokens, tandis que les ensembles de données existants traitent généralement des textes beaucoup plus courts, souvent autour de 60 000 tokens. Cet écart montre le besoin de nouvelles méthodes d'évaluation qui peuvent évaluer avec précision les compétences de ces modèles avancés.

Qu'est-ce que NovelQA ?

NovelQA est conçu pour combler le vide dans l'évaluation des LLMs sur des textes plus longs. Contrairement à d'autres benchmarks, il présente des textes avec des fenêtres de contexte qui dépassent les 100 000 tokens. En se concentrant sur la compréhension de récits longs, NovelQA fournit un outil complet pour faire avancer les capacités de traitement du langage.

Comment est structuré NovelQA

Collecte de données : Le jeu de données est construit en utilisant des romans de différents styles, périodes et longueurs. Cela aide à créer un ensemble varié et riche de textes pour l'évaluation. Les romans sélectionnés font tous plus de 50 000 mots, offrant un contenu suffisant pour les tests.

Types de questions : Chaque question dans NovelQA est associée à une réponse claire et à un texte de soutien tiré du roman. Les questions varient en complexité et se concentrent sur différents aspects du texte.

Processus d'annotation : Des annotateurs qualifiés, bien familiarisés avec la littérature anglaise, créent manuellement les questions et les réponses. Cela garantit que les données sont pertinentes et stimulantes. Il y a plusieurs étapes dans ce processus, y compris l'utilisation de modèles et la possibilité de poser des questions ouvertes pour augmenter la diversité.

Évaluation des modèles

Le processus d'évaluation inclut des tests de divers LLMs à long contexte, comme GPT-4 et d'autres. Ces modèles sont évalués dans deux configurations : multichoix, où ils choisissent la bonne réponse parmi des options, et générative, où ils créent une réponse basée sur le texte fourni.

Résultats clés

Les premières Évaluations montrent même que les modèles les plus performants ont du mal avec certains types de questions, surtout celles nécessitant un raisonnement multi-saut ou une récupération d'informations détaillées. Par exemple, GPT-4 atteint une précision de 46,88 %, tandis que d'autres modèles peuvent performer encore moins bien.

Il devient clair que les LLMs rencontrent des obstacles quand ils doivent comprendre des relations complexes, des chronologies et des éléments détaillés s'étendant sur de longs textes. Les résultats montrent aussi une tendance inquiétante : les modèles ont plus de mal à récupérer des informations précises quand elles se situent au-delà de la barre des 100 000 tokens.

Importance des types de questions

Différents types de questions mesurent à quel point les LLMs peuvent comprendre et analyser des récits. Les questions qui demandent des significations, des relations et des détails spécifiques sont souvent les plus difficiles pour les modèles. Ça suggère que, même si les modèles peuvent gérer des questions simples, ils ont besoin d'améliorer leur approche pour traiter des connexions complexes et des concepts abstraits qui nécessitent une compréhension approfondie.

Performance des modèles selon la longueur

La performance des LLMs peut varier en fonction de la longueur du texte qu'ils analysent. En examinant la précision des réponses des modèles par rapport à la position des preuves dans le texte, certains motifs émergent. Par exemple, les modèles ont tendance à mieux réussir quand les informations nécessaires se trouvent dans la première moitié du texte, montrant une baisse de précision à mesure que le texte nécessaire s'enfonce plus profondément dans l'histoire.

Mémoire et compréhension

Un défi majeur est de voir comment ces modèles gèrent la mémoire tout en traitant de longs textes. Ils doivent se souvenir des informations efficacement sur de longues périodes, ce qui entraîne souvent une baisse de performance pour des parties du texte beaucoup plus longues que ce à quoi ils sont habitués. Cela soulève des questions sur comment améliorer leur conception pour gérer les longs contextes de manière plus efficace.

Évaluation à livre fermé

Pour évaluer les modèles plus en profondeur, une évaluation "à livre fermé" a été réalisée. Dans ce cadre, les modèles n'ont pas accès au texte et doivent compter sur leurs connaissances internes pour répondre aux questions. Les résultats montrent que, même si ces modèles retiennent certaines informations de romans bien connus, ils ont toujours des difficultés sans accès direct au texte. Cette limitation implique que comprendre des récits complexes reste un défi important pour les LLMs dans divers scénarios.

Conclusion et travaux futurs

NovelQA fournit une nouvelle norme pour évaluer les capacités de compréhension des grands modèles de langage en ce qui concerne les longs textes. Les défis observés dans les modèles existants soulignent le besoin d'un développement supplémentaire dans la compréhension à long terme, en particulier concernant la compréhension détaillée et la gestion de la mémoire. La recherche continue et les améliorations dans ce domaine seront cruciales pour améliorer la performance des modèles de langage dans le traitement et l'interprétation de récits longs.

L'introduction de NovelQA vise non seulement à faire avancer le traitement du langage naturel, mais aussi à contribuer aux études littéraires computationnelles, en créant un pont entre technologie et littérature. Grâce à une évaluation rigoureuse, il est possible de raffiner ces modèles et de les rendre plus robustes pour gérer efficacement des textes complexes et réels.

Source originale

Titre: NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens

Résumé: The rapid advancement of Large Language Models (LLMs) has introduced a new frontier in natural language processing, particularly in understanding and processing long-context information. However, the evaluation of these models' long-context abilities remains a challenge due to the limitations of current benchmarks. To address this gap, we introduce NovelQA, a benchmark specifically designed to test the capabilities of LLMs with extended texts. Constructed from English novels, NovelQA offers a unique blend of complexity, length, and narrative coherence, making it an ideal tool for assessing deep textual understanding in LLMs. This paper presents the design and construction of NovelQA, highlighting its manual annotation, and diverse question types. Our evaluation of Long-context LLMs on NovelQA reveals significant insights into the models' performance, particularly emphasizing the challenges they face with multi-hop reasoning, detail-oriented questions, and extremely long input with an average length more than 200,000 tokens. The results underscore the necessity for further advancements in LLMs to improve their long-context comprehension.

Auteurs: Cunxiang Wang, Ruoxi Ning, Boqi Pan, Tonghui Wu, Qipeng Guo, Cheng Deng, Guangsheng Bao, Xiangkun Hu, Zheng Zhang, Qian Wang, Yue Zhang

Dernière mise à jour: 2024-06-17 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2403.12766

Source PDF: https://arxiv.org/pdf/2403.12766

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires