Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache

Evaluationsmethoden für Chatbots neu denken

Aktuelle Bewertungsbenchmarks berücksichtigen nicht die modernen Fähigkeiten von Chatbots.

― 6 min Lesedauer


Chatbot-Bewertung brauchtChatbot-Bewertung brauchtein Update.Dialogsysteme einfach nicht genug.Die aktuellen Methoden sind für moderne
Inhaltsverzeichnis

Grosse Sprachmodelle (LLMs) haben in vielen Sprachaufgaben starke Fähigkeiten gezeigt. Im Bereich des offenen Dialogs werden LLMs häufig verwendet, um die Antworten von Chatbots zu bewerten. Diese Bewertungen beinhalten oft menschliche Meinungen und sind entscheidend, um zu verstehen, wie gut Chatbots abschneiden. Viele aktuelle Bewertungsmethoden basieren jedoch auf älteren Datensätzen und messen nur Dinge wie die Flüssigkeit oder Relevanz einer Antwort. Das bedeutet, dass sie nicht vollständig widerspiegeln, wie avanciert moderne Chatbots sind.

In diesem Artikel schauen wir uns die aktuellen Bewertungsmethoden an und heben ihre Schwächen hervor. Unsere Erkenntnisse zeigen, dass aktuelle Bewertungsbenchmarks oft veraltete Antwortgeneratoren verwenden und sich auf Qualitätsaspekte konzentrieren, die nicht mehr nützlich sind. Wir werden auch zeigen, dass einige LLMs, wie GPT-4, Schwierigkeiten haben, tatsächliche Probleme in den Gesprächen heutiger Chatbots zu erkennen.

Bewertungsrahmen

In der Dialogbewertung wurden LLMs als nützliche Werkzeuge vorgeschlagen. Einige Studien legen nahe, dass es hilfreich sein kann, LLMs spezifische Qualitätsaspekte zu geben, um menschliche Bewertungen in verschiedenen Benchmarks genau zu treffen. Die typischerweise untersuchten Qualitätsaspekte sind Flüssigkeit (ist die Antwort gut formuliert?) und Relevanz (hat die Antwort etwas mit dem Thema zu tun?). Diese Kriterien geben jedoch kein klares Bild davon, wie gut moderne Chatbots abschneiden, weil sie alle dazu neigen, flüssige und relevante Antworten zu generieren.

Aktuelle Benchmarks

Mehrere Datensätze werden häufig verwendet, um LLMs in der offenen Dialogbewertung zu beurteilen. Ein Datensatz, bekannt als FED, umfasst Gespräche zwischen Menschen und zwei Chatbots. Jedes Gespräch wird hinsichtlich Qualitätsaspekten wie Flüssigkeit und Relevanz annotiert. Andere Datensätze wie USR und DSTC10 bieten ebenfalls eine Vielzahl von Gesprächstypen und Qualitätsbewertungen. Dennoch ist der Hauptfehler, dass sie oft auf ältere Chatbots zurückgreifen, um Antworten zu generieren, die nicht so gut abschneiden wie moderne Modelle.

Bedarf an neuen Benchmarks

Es besteht dringender Bedarf an neuen Benchmarks, die die Fähigkeiten heutiger Chatbots widerspiegeln. Aktuelle Datensätze konzentrieren sich hauptsächlich auf ältere Probleme, die nicht das volle Spektrum von Stärken und Schwächen moderner Dialogsysteme erfassen. Zum Beispiel sind Aspekte wie Kohärenz (wie gut der Dialog fliesst) und Allgemeinwissen (grundlegendes logisches Verständnis) entscheidend, werden aber in den aktuellen Bewertungsmethoden oft übersehen.

Mängel der aktuellen Bewertungen

Unsere Forschung legt nahe, dass viele gängige Datensätze nicht die richtigen Aspekte der Dialogqualität bewerten. Die meisten konzentrieren sich auf Flüssigkeit und Relevanz, die nicht hilfreich sind, um die Leistung moderner Chatbots zu unterscheiden. Mit der Entwicklung fortschrittlicher LLMs bieten einfache Masse für Flüssigkeit und Relevanz keine tiefere Einsicht in die Leistung von Chatbots mehr.

Qualitative Analyse

Um diese Mängel zu verdeutlichen, haben wir eine kleine Annotationstudie mit einem aktuellen Datensatz namens SODA durchgeführt. Ziel war es, erstens zu überprüfen, ob Flüssigkeit immer noch ein wichtiger Aspekt ist, und zweitens zu untersuchen, wie gut LLMs komplexere Aspekte wie Kohärenz und Allgemeinwissen beurteilen. Unsere Analyse zeigt, dass viele Dialoge zwar gut in Flüssigkeit abschneiden, LLMs jedoch Schwierigkeiten haben, Probleme im Zusammenhang mit Kohärenz und Allgemeinwissen zu erkennen.

Bewertung von Dialogen mit SODA

SODA ist ein Datensatz, in dem Dialoge von einem LLM generiert werden, was ihn zu einer geeigneten Wahl für die zeitgemässe Bewertung macht. Wir haben festgestellt, dass die Dialoge in SODA konsistenter und natürlicher sind als die in älteren Datensätzen wie DailyDialog. In unserer Studie bewerteten Expertenannotatoren Dialoge basierend auf Flüssigkeit, Kohärenz, Allgemeinwissen und Gesamtqualität. Interessanterweise wurden alle Dialoge als flüssig bewertet, was darauf hinweist, dass Flüssigkeit in aktuellen Bewertungen weniger ein Unterscheidungsmerkmal ist.

Ergebnisse der menschlichen Bewertung

Die Bewertung zeigte, dass die menschlichen Annotatoren die meisten Dialoge als flüssig einschätzten, aber LLM-Bewerter wie GPT-3.5-Turbo und GPT-4 oft Schwierigkeiten hatten, Dialoge als kohärent zu erkennen. Zum Beispiel hatten sie Schwierigkeiten, zu identifizieren, wann Antworten an logischem Fluss oder grundlegendes Verständnis mangelten. Basierend auf unseren Erkenntnissen ist die Leistung von LLMs bei der Bewertung von Kohärenz bemerkenswert schwach.

Bewerter und Bewertungsmethoden

Wir haben die Leistung mehrerer LLM-Bewerter, einschliesslich GPT-4 und Llama-3, bewertet. Durch das Testen ihrer Antworten mit verschiedenen Bewertungsmethoden wollten wir ihre Effektivität bei der Identifizierung von Qualitätsaspekten des Dialogs beurteilen. Unsere Ergebnisse zeigten, dass grössere Modelle im Allgemeinen besser abschnitten als ihre kleineren Pendants, insbesondere bei der Identifizierung von Allgemeinwissen.

Dialoglänge und Qualität

Ein weiterer Aspekt, den wir betrachtet haben, ist, wie die Länge des Dialogs die Bewertungsqualität beeinflussen könnte. Unsere Ergebnisse zeigten eine geringe negative Korrelation zwischen der Dialoglänge und sowohl Kohärenz als auch Gesamtqualität, was bedeutet, dass längere Dialoge manchmal zu schlechteren Bewertungen führen könnten.

Fazit

Dieser Artikel lenkt die Aufmerksamkeit auf die Mängel bei den aktuellen Benchmarks, die zur Bewertung von LLMs im offenen Dialog verwendet werden. Die meisten Benchmarks stützen sich auf ältere Daten, die die Fortschritte moderner Chatbots nicht widerspiegeln. Da sich LLMs weiterhin entwickeln, müssen sich die Bewertungsmethoden anpassen, um Schritt zu halten. Neue Benchmarks sollten sich auf die Bewertung von Aspekten wie Kohärenz und Allgemeinwissen konzentrieren, die entscheidend sind, um die Leistung moderner Dialoge zu beurteilen. Durch die Verbesserung des Bewertungsrahmens können wir die Entwicklung fortschrittlicherer und fähigerer Chatbots in der Zukunft besser unterstützen.

Ethische Überlegungen

Auch wenn wir in unserer Studie eine faire Bewertung anstreben, ist es wichtig, mögliche Biases zu berücksichtigen. Unsere Bewerter waren fliessend in Englisch und hatten Fachkenntnisse, was ihre Bewertungen beeinträchtigen könnte. Eine diversere Gruppe von Annotatoren könnte eine breitere Perspektive bieten und Biases im Bewertungsprozess reduzieren.

Zukünftige Richtungen

Für die Zukunft sollten Forscher die Entwicklung von mehrsprachigen und multikulturellen Benchmarks priorisieren. Dadurch stellen wir sicher, dass die Bewertungen nicht auf englische Dialoge beschränkt sind und eine breitere Palette von sprachlichen und kulturellen Nuancen erfassen können. Dieser Ansatz wird helfen, robustere Chatbots zu schaffen, die ein globales Publikum ansprechen können.

Originalquelle

Titel: On the Benchmarking of LLMs for Open-Domain Dialogue Evaluation

Zusammenfassung: Large Language Models (LLMs) have showcased remarkable capabilities in various Natural Language Processing tasks. For automatic open-domain dialogue evaluation in particular, LLMs have been seamlessly integrated into evaluation frameworks, and together with human evaluation, compose the backbone of most evaluations. However, existing evaluation benchmarks often rely on outdated datasets and evaluate aspects like Fluency and Relevance, which fail to adequately capture the capabilities and limitations of state-of-the-art chatbot models. This paper critically examines current evaluation benchmarks, highlighting that the use of older response generators and quality aspects fail to accurately reflect modern chatbot capabilities. A small annotation experiment on a recent LLM-generated dataset (SODA) reveals that LLM evaluators such as GPT-4 struggle to detect actual deficiencies in dialogues generated by current LLM chatbots.

Autoren: John Mendonça, Alon Lavie, Isabel Trancoso

Letzte Aktualisierung: 2024-07-04 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2407.03841

Quell-PDF: https://arxiv.org/pdf/2407.03841

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel