Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache

Bewertung der Langzeit-Kontextfähigkeiten von mehrsprachigen LLMs

Bewertung der LLM-Leistung über lange Texte in fünf Sprachen.

― 7 min Lesedauer


Mehrsprachige LLMs undMehrsprachige LLMs undlange Kontexteverschiedenen Sprachen.bei der Verarbeitung langer Texte inUntersuchung der Fähigkeiten von LLMs
Inhaltsverzeichnis

Grosse Sprachmodelle (LLMs) sind ziemlich gut darin geworden, mit langen Texten umzugehen. Viele dieser Modelle zeigen eine beeindruckende Fähigkeit, Informationen aus umfangreichen Texten zu merken, besonders in Englisch. Allerdings konzentrierten sich die meisten Tests ihrer Fähigkeiten auf Englisch und beinhalteten nur das Finden eines bestimmten Satzes in langen Texten. Diese Studie untersucht, wie gut diese Modelle abschneiden, wenn sie mit mehreren versteckten Sätzen in verschiedenen Sprachen arbeiten. Wir schauen uns fünf Sprachen an: Englisch, Vietnamesisch, Indonesisch, Swahili und Somali. Diese Sprachen verwenden zwar das lateinische Alphabet, stammen aber aus unterschiedlichen Sprachfamilien und haben unterschiedliche Ressourcenverfügbarkeiten.

Bedeutung von langen Kontexten

Mit langen Texten zu arbeiten, ist wichtig für Aufgaben wie Dokumentenzusammenfassungen, das Beantworten von Fragen zu langen Texten und das Erstellen von Code. Jüngste Verbesserungen bei LLMs zielen darauf ab, ihre Fähigkeit zu steigern, lange Kontexte zu handhaben. Besonders mehrsprachige Modelle könnten zu besseren Anwendungen führen, indem sie mit langen Textdaten in verschiedenen Sprachen arbeiten. Zum Beispiel hat das Modell Gemini-1.5 Pro gezeigt, wie es lernen kann, von Englisch in eine ressourcenarme Sprache unter Verwendung eines Grammatikhandbuchs innerhalb seines Kontexts zu übersetzen.

Aktuelle Methoden zur Bewertung, wie gut LLMs lange Kontexte verwalten, konzentrieren sich hauptsächlich auf Englisch. Diese fehlende mehrsprachige Bewertung schränkt unser Verständnis darüber ein, wie diese Modelle in verschiedenen Sprachen abschneiden. Es ist wichtig, die mehrsprachige Leistung zu bewerten, um Modelle zu schaffen, die effektiv auf unterschiedliche Gemeinschaften eingehen. Ausserdem zeigen Untersuchungen, dass LLMs oft weniger sichere und relevante Antworten in ressourcenarmen Sprachen liefern. Leider gibt es nicht genug mehrsprachige Bewertungen, um zu beurteilen, wie gut diese Modelle in verschiedenen sprachlichen Situationen funktionieren.

Die Lücke schliessen

Um dieses Problem anzugehen, präsentieren wir eine umfassende Studie, die LLMs mit langen Kontexten in mehrsprachigen Einstellungen bewertet. Wir verwenden Bewertungsrahmen, die auf synthetischen Aufgaben basieren. Obwohl diese Aufgaben etwas künstlich sind, haben wir einen neuen Datensatz erstellt, der natürlich vorkommende Texte und menschlich übersetzte Daten umfasst, um reale Situationen widerzuspiegeln und kontrollierte Vergleiche der Modellleistung über Sprachen hinweg zu ermöglichen. Neben Abrufaufgaben führen wir eine neue Denkaufgabe ein, die von den Modellen verlangt, nicht nur relevante Elemente zu finden, sondern diese auch zu vergleichen und die Informationen in einem langen Kontext zu behalten.

Unsere Studie untersucht sechs verschiedene LLMs in fünf Sprachen mit unterschiedlichen Ressourcenlevels. Wir wollen zwei zentrale Fragen beantworten: (1) Wie vergleichen sich die Fähigkeiten von LLMs im Umgang mit langen Kontexten in Abruf- und Denkaufgaben über mehrere Sprachen hinweg? (2) Gibt es signifikante Leistungsunterschiede bei LLMs, wenn sie mit mehreren Sprachen umgehen?

Wichtige Ergebnisse

Hier sind einige wichtige Erkenntnisse aus unserer Forschung:

  • Mit zunehmender Kontextlänge sinkt die Modellleistung schnell über alle Sprachen hinweg.
  • Die Leistung nimmt ebenfalls stark ab, wenn wir von ressourcenreichen zu ressourcenarmen Sprachen übergehen.
  • Denkaufgaben stellen in allen Sprachen grössere Herausforderungen als Abrufaufgaben dar.
  • Es gibt erhebliche Leistungsunterschiede zwischen verschiedenen LLMs.
  • Selbst einfache Aufgaben können Einschränkungen der aktuellen Modelle im Umgang mit mehrsprachigen Kontexten aufzeigen.

Unser Ziel mit diesen Erkenntnissen ist es, das Verständnis der Bewertung von langen Kontexten in verschiedenen Sprachen zu verbessern und die Entwicklung besserer Modelle zu fördern.

Verwandte Arbeiten

Fortschritte bei Sprachmodellen konzentrieren sich darauf, ihre Fähigkeit zu verbessern, Informationen aus umfangreichen Kontexten abzurufen und darüber nachzudenken. Aufgrund des Mangels an Benchmarks für lange Kontexte basieren Bewertungen oft auf synthetischen Aufgaben, die die Fähigkeit eines Modells messen, spezifische Informationen aus grossen Datensätzen abzurufen.

Jüngste Modelle wie Gemini-1.5 und Claude-3 haben beeindruckende Abruffähigkeiten in bestimmten Aufgaben gezeigt. Allerdings bedeuten niedrige Werte in der Verwirrung nicht immer, dass ein Modell lange Kontexte effektiv handhaben kann. Die meisten Studien bis jetzt haben sich auf Englische Texte konzentriert, mit einigen bilingualen Datensätzen, die begrenzte Verbesserungen bieten. Der Aufwand, der für die Erstellung von Datensätzen erforderlich ist, schränkt die Verfügbarkeit auf nur wenige Sprachen ein.

Ausgewählte Sprachen und Modelle

In unserer Studie untersuchen wir fünf Sprachen: Englisch, Vietnamesisch, Indonesisch, Swahili und Somali, die unterschiedliche Ressourcenlevels abdecken. Diese Sprachen verwenden das lateinische Alphabet, was beeinflusst, wie Modelle sie verarbeiten. Sprachen mit lateinischem Alphabet schneiden tendenziell besser ab als solche mit anderen Schriften, und die Unterschiede werden bei längeren Texten deutlicher.

Wir bewerten vier proprietäre Modelle und zwei Open-Source-Modelle. GPT-4, Gemini-1.5 und Claude-3 sind proprietäre Modelle, während Yarn-7b und Llama-3 Open-Source-Modelle sind. Jedes dieser Modelle hat eine unterschiedliche Kontextfenstergrösse, was bedeutet, dass sie unterschiedliche Mengen Text gleichzeitig verarbeiten können.

Aufgaben für Abruf und Denken

Modelle für lange Kontexte müssen relevante Informationen aus dem Text abrufen und diese Informationen nutzen, um menschliche Anweisungen zu befolgen. Synthetische Aufgaben sind vielleicht nicht vollständig geeignet, um die Fähigkeiten eines Modells zu bewerten, bieten aber eine Möglichkeit, zu beurteilen, wie gut ein Modell mit langen Kontexten in verschiedenen Sprachen umgeht.

Eine Aufgabe, die wir uns ansehen, nennt sich "Nadel im Heuhaufen". In dieser Aufgabe ist ein bestimmter Satz in einem grossen Text versteckt, und das Modell muss diesen Satz finden. Mit zunehmender Textmenge wird diese Aufgabe schwieriger. Wir definieren die Aufgabe so, dass es einen Ziel-Satz (die Nadel), einen grossen Text (den Heuhaufen) und eine Frage gibt, die zur Auffindung der Nadel führt.

In einer anderen Aufgabe mit mehreren Nadeln muss das Modell mehrere Informationsstücke nachverfolgen und darüber nachdenken. Dafür platzieren wir mehrere Ziel-Sätze im Text, was es für das Modell schwieriger macht, eine Antwort basierend auf den Nadeln zu geben.

Neuer Datensatz: mLongRR

Wir haben einen neuen Datensatz namens mLongRR erstellt, der aus BBC-Nachrichtenartikeln in den fünf ausgewählten Sprachen besteht. Dieser Ansatz ist besser als die Verwendung zuvor veröffentlichter Essays, da er die Wahrscheinlichkeit von Übersetzungsfehlern verringert. Der neue Datensatz ermöglicht es uns, aktuelle, authentische Texte zu verwenden, die die Modelle wahrscheinlich nicht vorher gesehen haben.

Für die Aufgaben haben wir verschiedene Aufforderungen verwendet, um die Modellleistung zu messen. Wir haben festgestellt, dass das Design der Aufforderung eine Rolle dabei spielt, wie gut die Modelle abschneiden, wobei einige Aufforderungen besser funktionieren als andere. Wir haben auch professionelle Übersetzer engagiert, um bei der Übersetzung von Phrasen von Englisch in die anderen Sprachen zu helfen.

Ergebnisse und Diskussion

Wir haben Experimente mit verschiedenen Modellen durchgeführt und deren Fähigkeit bewertet, Informationen abzurufen und darüber nachzudenken. Die Ergebnisse zeigten, dass die englischen Modelle insgesamt gut abschneiden. Allerdings haben die Modelle mehr Schwierigkeiten mit Sprachen, die weniger Ressourcen haben, besonders bei komplexem Denken.

Die Erhöhung der Kontextlänge oder der Anzahl an Nadeln tendiert dazu, die Genauigkeit zu verringern. Das deutet darauf hin, dass aktuelle Modelle Schwierigkeiten haben, grosse Informationsmengen effektiv zu verarbeiten. Insgesamt zeigten Modelle wie Gemini-1.5 eine bessere Resilienz über die Aufgaben hinweg, obwohl sie auch bei grösseren Tiefen und längeren Kontexten Herausforderungen hatten.

Fazit

Zusammenfassend offenbart unsere Forschung wichtige Einblicke in die Funktionsweise von LLMs mit langen Kontexten in verschiedenen Sprachen. Wir fanden signifikante Leistungsabfälle, insbesondere bei längeren Texten, mehreren Sätzen und ressourcenarmen Sprachen. Einfache Aufgaben wie "Nadel im Heuhaufen" zeigen oft erhebliche Unterschiede in der Modellleistung. Letztendlich betont unsere Studie die Notwendigkeit besserer Modelle und Tokenisierungstechniken, um effektiv mit ressourcenarmen Sprachen zu arbeiten. Während wir uns auf Sprachen mit lateinischem Alphabet konzentrierten, hoffen wir, in Zukunft andere Schriften zu untersuchen und herauszufinden, wie diese Ergebnisse auf zusätzliche Sprachen und Kontexte anwendbar sind.

Originalquelle

Titel: Evaluating Multilingual Long-Context Models for Retrieval and Reasoning

Zusammenfassung: Recent large language models (LLMs) demonstrate impressive capabilities in handling long contexts, some exhibiting near-perfect recall on synthetic retrieval tasks. However, these evaluations have mainly focused on English text and involved a single target sentence within lengthy contexts. Our work investigates how LLM performance generalizes to multilingual settings with multiple hidden target sentences. We create a new dataset -- mLongRR -- to comprehensively evaluate several multilingual long-context LLMs on retrieval and reasoning tasks across five languages: English, Vietnamese, Indonesian, Swahili, and Somali. These languages share the Latin script but belong to distinct language families and resource levels. Our analysis reveals a significant performance gap between languages. The best-performing models such as Gemini-1.5 and GPT-4o, achieve around 96% accuracy in English to around 36% in Somali with a single target sentence. However, this accuracy drops to 40% in English and 0% in Somali when dealing with three target sentences. Our findings highlight the challenges long-context LLMs face when processing longer contexts, an increase in the number of target sentences, or languages of lower resource levels.

Autoren: Ameeta Agrawal, Andy Dang, Sina Bagheri Nezhad, Rhitabrat Pokharel, Russell Scheinberg

Letzte Aktualisierung: Oct 12, 2024

Sprache: English

Quell-URL: https://arxiv.org/abs/2409.18006

Quell-PDF: https://arxiv.org/pdf/2409.18006

Lizenz: https://creativecommons.org/licenses/by-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel