Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache

Bewertung von mehrsprachigen Sprachmodellen in indischen Sprachen

Eine umfassende Studie zur Leistungsfähigkeit von Sprachmodellen in 10 indischen Sprachen.

― 8 min Lesedauer


Multilinguale LLMMultilinguale LLMBewertung EntpacktKulturen hinweg.von Sprachmodellen über verschiedeneEin tiefer Einblick in die Bewertung
Inhaltsverzeichnis

Die Bewertung von mehrsprachigen grossen Sprachmodellen (LLMs) ist eine harte Nuss, weil es da einige Herausforderungen gibt. Dazu gehören ein Mangel an vielfältigen Benchmarks, einige Benchmarks, die beim Training der Modelle verwendet werden, und das Fehlen von lokalen kulturellen Details in übersetzten Benchmarks. In dieser Studie schauen wir uns an, wie Menschen und LLMs Modelle in verschiedenen Sprachen und Kulturen bewerten. Wir haben 30 Modelle in 10 indischen Sprachen getestet und dabei 90.000 menschliche Bewertungen und 30.000 LLM-Bewertungen durchgeführt. Unsere Ergebnisse zeigen, dass Modelle wie GPT-4o und Llama-3 70B für die meisten indischen Sprachen gut abgeschnitten haben.

Bewertungsprozess

Unser Bewertungsprozess bestand aus mehreren Schritten. Zunächst haben wir eine breite Palette von Bewertungsaufforderungen mit Input von Muttersprachlern gesammelt. Dann haben wir Antworten von den ausgewählten Modellen auf diese Aufforderungen generiert. Anschliessend haben wir die generierten Antworten in zwei Settings bewertet: direkte Bewertung und paarweise Vergleich, wobei wir sowohl menschliche Bewerter als auch ein LLM genutzt haben. Zuletzt haben wir Ranglisten basierend auf den erhaltenen Punkten erstellt und analysiert, wie viel Übereinstimmung zwischen menschlichen und LLM-Bewertungen bestand.

Hintergrund

Grosse Sprachmodelle haben in den letzten Jahren grosse Fortschritte gemacht, aber ihre Fähigkeiten zu verstehen kann knifflig sein. Benchmarking ist der Hauptweg geworden, um diese Modelle zu bewerten, wobei viele bekannte Benchmarks für Qualitätsprüfungen verwendet werden. Allerdings hat standardisiertes Benchmarking mehrere Probleme. Beliebte Benchmarks sind online verfügbar und könnten bereits in den Trainingsdaten für LLMs enthalten sein, was sie unfair für die Bewertung macht. Diese Situation, bekannt als Kontamination des Testdatensatzes, kann während des Trainings und Feintunings auftreten. Es besteht die Notwendigkeit für dynamischere Bewertungen mit menschlicher Unterstützung, auch wenn menschliche Bewertungen zeitaufwendig und teuer sein können. Deshalb ist die Verwendung von LLMs als Bewerter in den letzten Jahren beliebter geworden.

Die meisten Forschungen zu Training und Bewertung von LLMs konzentrieren sich auf Englisch. Neueste Studien zeigen, dass LLMs bei Nicht-Englisch-Sprachen schlechter abschneiden, insbesondere bei Sprachen mit anderen Schriftsystemen und unterversorgten Sprachen. Studien haben auch hervorgehoben, dass führende Modelle wie GPT-4 oft näher an westlichen Normen ausgerichtet sind. Das hat zur Entwicklung von Modellen geführt, die speziell für bestimmte Sprachen, Kulturen und Regionen angepasst sind, einschliesslich indischer, arabischer, afrikanischer, chinesischer, europäischer und indonesischer Sprachen. Die Herausforderungen der mehrsprachigen Bewertung ergeben sich aus der begrenzten Verfügbarkeit von mehrsprachigen Benchmarks, einem Mangel an sprachlicher Vielfalt innerhalb dieser Benchmarks und dem Risiko der Kontamination. Ausserdem sind viele mehrsprachige Benchmarks Übersetzungen von englischen Benchmarks, wodurch wichtige kulturelle und sprachliche Kontexte verloren gehen.

Unsere Arbeit

In dieser Studie haben wir die grösste mehrsprachige Menschliche Bewertung von LLMs durchgeführt, die uns bekannt ist, mit 90.000 Bewertungen in 10 indischen Sprachen. Wir haben eine neue Reihe von Aufforderungen verwendet, die unabhängig von Muttersprachlern erstellt wurden, um allgemeine Themen und kulturell spezifische Fragen darzustellen. Wir haben menschliche Bewerter aus verschiedenen Regionen eingesetzt, wobei wir uns besonders auf ländliche und unterrepräsentierte Gemeinschaften in Indien konzentriert haben.

Neben den menschlichen Bewertungen haben wir auch LLMs als Bewerter genutzt. Das haben wir gemacht, um weiter zu untersuchen, wie gut die Bewertungen von Menschen und LLMs übereinstimmen und um die Sicherheit zu bewerten, wobei ethische Überlegungen menschliches Engagement eingeschränkt haben.

Beiträge

Unsere Arbeit umfasst die folgenden wichtigen Beiträge:

  1. Wir haben 90.000 menschliche Bewertungen in 10 indischen Sprachen abgeschlossen und 30 indische sowie mehrsprachige Modelle mit kulturell nuancierten Datensätzen bewertet.
  2. Wir haben dieselben Bewertungen unter Verwendung von LLMs als Bewerter durchgeführt, was uns erlaubt hat, zu analysieren, wie gut menschliche und LLM-Bewertungen übereinstimmen.
  3. Wir haben Ranglisten basierend auf Bewertungen sowohl von menschlichen als auch von LLM-Quellen erstellt und Trends sowie Vorurteile über verschiedene Sprachen und Modelle untersucht.

Verwandte Arbeiten

Mehrsprachige Bewertungsbenchmarks versuchen, verschiedene Modelle mit verfügbaren mehrsprachigen Benchmarks zu bewerten. Einige haben mehrsprachige generative Tests veröffentlicht, die mehrere Sprachen abdecken. Andere Benchmarks sind XGLUE und XTREME, die ebenfalls auf mehrsprachige Aufgaben fokussieren.

In Bezug auf indische Benchmarks wurde der erste indische NLU-Benchmark, IndicGLUE, für 11 Sprachen veröffentlicht, der später auf alle 22 indischen Sprachen ausgeweitet wurde. Andere Benchmarks bewerten Aufgaben wie maschinelle Übersetzung und Frage-Antwort für Indische Sprachen.

Menschliche Bewertungen wurden in verschiedenen Studien eingesetzt, um LLMs zu bewerten oder um Goldstandards für kulturell nuancierte Bewertungsaufforderungen zu erstellen. LLM-Bewerter waren in vielen Studien nützlich, weil sie Anweisungen gut befolgen konnten, obwohl einige Studien Vorurteile in ihren Bewertungen gezeigt haben. Neuere Arbeiten haben die Notwendigkeit einer mehrsprachigen Bewertung von LLMs hervorgehoben und die Grenzen bestehender Benchmarks aufgezeigt sowie Fragen zu kulturellen Werten in Sprachmodellen aufgeworfen.

Bewertungseinrichtung

Wir haben 10 indische Sprachen bewertet: Hindi, Tamil, Telugu, Malayalam, Kannada, Marathi, Odia, Bengali, Gujarati und Punjabi. Unsere Aufforderungen beinhalteten 20 Fragen pro Sprache, die Gesundheit, Finanzen und kulturell nuancierte Themen abdeckten, die von Muttersprachlern erstellt wurden.

Wir haben verschiedene beliebte indische Sprachmodelle und führende proprietäre LLMs bewertet. Die meisten indischen LLMs sind Feinabstimmungen von Open-Source-Modellen. Deshalb haben wir auch Instruct-Versionen dieser Modelle einbezogen, um ihre Leistung mit indischen Daten zu bewerten.

Es ist wichtig zu beachten, dass der Vergleich von Open-Source-Modellen mit API-basierten Systemen möglicherweise nicht ganz fair ist, wegen unterschiedlicher Komponenten. Wir haben alle Modelle in unserer Studie gleich behandelt, um Konsistenz zu gewährleisten.

Bewertungsstrategien

Wir haben zwei Strategien verwendet, um die generierten Antworten zu bewerten: paarweise Vergleich und direkte Bewertung. Beim paarweisen Vergleich haben wir die Modellantworten auf die gleiche Aufforderung mithilfe des Elo-Bewertungssystems verglichen, das uns hilft, Modelle basierend auf ihrer Leistung zu messen und zu ranken.

In der direkten Bewertung haben sowohl menschliche Annotatoren als auch ein LLM jedes Frage-Antwort-Paar anhand von drei Kriterien bewertet: Linguistische Akzeptanz, Aufgabenqualität und Halluzination. Das Ranking jedes Modells wurde durch ein Punktesystem bestimmt.

Menschliche und LLM-Bewerter

Die menschlichen Bewerter haben ihre Aufgaben auf Smartphones ausgeführt, wo sie die Aufforderungen und die entsprechenden Modellantworten überprüft haben. Sie wurden gebeten auszuwählen, welche Antwort besser war oder ob beide Antworten gleich gut oder schlecht waren.

Der LLM-Bewerter folgte einem ähnlichen Setup, verwendete jedoch ein anderes Aufforderungsformat. Detaillierte Anweisungen wurden sowohl den menschlichen als auch den LLM-Bewertern gegeben, um Klarheit bei der Bewertung zu gewährleisten.

Übereinstimmungsanalyse

Um die Qualität der menschlichen Annotationen und die Übereinstimmung zwischen Menschen und LLMs zu bewerten, haben wir die Übereinstimmung zwischen den Bewertern untersucht. Wir verwendeten Metriken wie Prozentuale Übereinstimmung und Fleiss Kappa-Werte, um die Konsistenz der Bewertungen zu messen.

Wir haben auch die Rankings aus menschlichen und LLM-Bewertungen mit Kendall’s Tau verglichen, um das Mass der Übereinstimmung zwischen den beiden Bewertern zu bewerten.

Vorurteilsanalyse

Unsere Analyse suchte nach verschiedenen Vorurteilen, einschliesslich Positionsvorurteil und Wortfülle. Wir haben nach Vorurteilen geschaut, indem wir Entscheidungen in paarweisen Vergleichen umgedreht haben und gemessen haben, wie konsistent die Antworten blieben.

Unsere Ergebnisse zeigten kein signifikantes Vorurteil bei der Auswahl von Optionen während der Bewertungen. Allerdings waren LLMs entscheidungsfreudiger und neigten dazu, eine Antwort gegenüber einer anderen zu bevorzugen, selbst wenn beide Antworten Probleme hatten.

Sicherheitsbewertung

Für die Sicherheitsanalyse verwendeten wir einen bestimmten Datensatz, der darauf ausgelegt war, unangemessene Antworten hervorzurufen, und bewerteten die Ausgaben verschiedener Modelle anhand der LLM-Bewerter. Wir verglichen diese Ausgaben mit einer vordefinierten Liste von Begriffen, um problematischen Inhalt zu überprüfen.

Ergebnisse

Unsere Bewertungen zeigten, dass kleinere indische Modelle oft besser abschnitten als die Open-Source-Modelle, auf denen sie basierten. Grössere Modelle wie GPT-4o zeigten insgesamt die beste Leistung.

Wir fanden heraus, dass LLM-Bewerter in der paarweisen Bewertung gut mit Menschen übereinstimmten, jedoch in der direkten Bewertung eine geringere Übereinstimmung hatten, insbesondere bei Antworten, die kulturelle Nuancen beinhalteten.

Fazit

Diese Studie lieferte umfangreiche Bewertungen von mehrsprachigen LLMs, indem wir die Bewertungen von menschlichen und LLM-Bewertern kombiniert haben. Wir hoben die Herausforderungen und Vorurteile in mehrsprachigen Bewertungen hervor und betonten die Notwendigkeit eines hybriden Bewertungssystems, das menschliche Perspektiven einbezieht.

Unsere Ergebnisse zeigten, dass, obwohl LLMs allgemeine Trends erfassen können, sie Schwierigkeiten mit kulturell nuancierten Bewertungen hatten. Das deutet darauf hin, dass menschlicher Input nach wie vor entscheidend ist, um Sprachmodelle in verschiedenen Sprachen und Kontexten zu bewerten.

Zukünftige Arbeit

In Zukunft planen wir, unsere Bewertung auf mehr indische Sprachen auszudehnen und die Anzahl der in unseren Bewertungen verwendeten Aufforderungen zu erhöhen. Wir möchten auch weitere Modelle einbeziehen, sobald sie verfügbar sind.

Zusätzlich planen wir, die Vorurteile in den Bewertungen weiter zu untersuchen und die Robustheit unseres Bewertungssystems zu verbessern, um ein umfassendes Verständnis der mehrsprachigen Leistung in Sprachmodellen sicherzustellen.

Originalquelle

Titel: PARIKSHA: A Large-Scale Investigation of Human-LLM Evaluator Agreement on Multilingual and Multi-Cultural Data

Zusammenfassung: Evaluation of multilingual Large Language Models (LLMs) is challenging due to a variety of factors -- the lack of benchmarks with sufficient linguistic diversity, contamination of popular benchmarks into LLM pre-training data and the lack of local, cultural nuances in translated benchmarks. In this work, we study human and LLM-based evaluation in a multilingual, multi-cultural setting. We evaluate 30 models across 10 Indic languages by conducting 90K human evaluations and 30K LLM-based evaluations and find that models such as GPT-4o and Llama-3 70B consistently perform best for most Indic languages. We build leaderboards for two evaluation settings - pairwise comparison and direct assessment and analyze the agreement between humans and LLMs. We find that humans and LLMs agree fairly well in the pairwise setting but the agreement drops for direct assessment evaluation especially for languages such as Bengali and Odia. We also check for various biases in human and LLM-based evaluation and find evidence of self-bias in the GPT-based evaluator. Our work presents a significant step towards scaling up multilingual evaluation of LLMs.

Autoren: Ishaan Watts, Varun Gumma, Aditya Yadavalli, Vivek Seshadri, Manohar Swaminathan, Sunayana Sitaram

Letzte Aktualisierung: 2024-10-18 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2406.15053

Quell-PDF: https://arxiv.org/pdf/2406.15053

Lizenz: https://creativecommons.org/licenses/by-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Referenz Links

Mehr von den Autoren

Ähnliche Artikel