Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache

Wir stellen Seahorse vor: Ein mehrsprachiger Zusammenfassungs-Datensatz

Seahorse bietet eine grosse Sammlung von mehrsprachigen Zusammenfassungen mit Bewertungen von Menschen.

― 6 min Lesedauer


Seepferdchen-DatensatzSeepferdchen-DatensatzStartZusammenfassungs-Systemen.mehrsprachigenEin neuer Datensatz zur Bewertung von
Inhaltsverzeichnis

Die Bewertung, wie gut Zusammenfassungs-Systeme funktionieren, ist nicht einfach. Das gilt besonders für Sprachen ausser Englisch, wo es schwierig sein kann, genug menschliche Bewertungen zu finden. Um dieses Problem anzugehen, wurde ein neuer Datensatz namens Seahorse erstellt. Dieser Datensatz umfasst 96.000 Zusammenfassungen mit menschlichen Bewertungen basierend auf sechs Qualitätsaspekten: wie verständlich die Zusammenfassung ist, ob sie Informationen wiederholt, ihre Grammatik, wie gut sie die Hauptideen zuordnet, die behandelten Schlüsselpunkte und ihre allgemeine Kürze. Der Datensatz deckt sechs verschiedene Sprachen, neun Zusammenfassungs-Systeme und vier verschiedene Datensätze ab.

Dieser grosse Datensatz kann Forschern helfen, zu überprüfen, wie gut ihre Zusammenfassungs-Systeme funktionieren. Er kann auch genutzt werden, um neue Systeme zu trainieren, um deren Bewertungsmethoden zu verbessern. Die mit diesem Datensatz trainierten Metriken haben bei anderen Bewertungsbenchmarks gut abgeschnitten, was darauf hindeutet, dass diese Ressource für zukünftige Studien zur Zusammenfassung nützlich ist.

Da Sprachmodelle besser darin werden, Text zu erzeugen, ist es wichtig, zuverlässige Wege zu finden, um die Qualität des Textes zu bewerten, den sie produzieren. Selbst mit Verbesserungen erzeugen diese Modelle manchmal Texte mit Fehlern oder irreführenden Informationen. Das macht eine sorgfältige Bewertung notwendig, um die Modelle weiter zu verbessern.

Häufige Bewertungsmethoden wie BLEU und ROUGE stimmen oft nicht mit der Meinung menschlicher Prüfer über viele Aufgaben, einschliesslich der Zusammenfassung, überein. Deshalb wird die menschliche Bewertung oft als notwendig erachtet, um die Qualität von generierten Zusammenfassungen zu überprüfen. Allerdings kann das Sammeln menschlicher Bewertungen teuer und zeitaufwendig sein. Aus diesem Grund haben sich viele aktuelle Bemühungen darauf konzentriert, neue automatische Bewertungsmethoden zu entwickeln, die aus menschlichen Bewertungen lernen.

Grosse Sammlungen menschlicher Bewertungen sind entscheidend für die Entwicklung dieser neuen Metriken. Sie erfüllen zwei wichtige Zwecke: Erstens liefern sie Trainingsdaten für das Erlernen, wie man Zusammenfassungen bewertet, und zweitens dienen sie als Benchmarks, um zu testen, wie gut diese erlernten Metriken abschneiden.

Trotz der Nützlichkeit dieser Datensätze sind die meisten hauptsächlich für Englisch und nicht für andere Sprachen verfügbar. Ausserdem werden menschliche Bewertungsdaten oft nicht öffentlich geteilt, was die Möglichkeit einschränkt, robuste Modelle zu entwickeln, die verschiedene Sprachen und Aufgaben bewerten können.

In dieser Arbeit stellen wir Seahorse vor, einen neuen Datensatz, der eine grossangelegte Sammlung mehrsprachiger Bewertungsdaten für Zusammenfassungen enthält. Der Datensatz umfasst 96.000 Zusammenfassungen, die über sechs Qualitätsaspekte bewertet wurden, basierend auf Artikeln in sechs verschiedenen Sprachen. Durch die sorgfältige Auswahl von Artikeln aus verschiedenen Zusammenfassungs-Datensätzen stellen wir sicher, dass die gesammelten Bewertungen zuverlässig und vielfältig sind.

Die Zusammenfassungen in Seahorse stammen von neun verschiedenen Systemen, einschliesslich menschlich erzeugter Zusammenfassungen. Die anderen Systeme variieren in Grösse und Leistungsfähigkeit, von kleineren Modellen mit weniger Parametern bis hin zu grösseren, leistungsstärkeren Modellen. Diese Vielfalt der Systeme hilft, eine breite Palette von Zusammenfassungs-Ausgaben zu bieten, die verschiedene Arten von Fehlern erfassen.

Um die Bewertungen zu sammeln, haben geschulte Beurteiler jede Zusammenfassung anhand von sechs Fragen beurteilt, die die Qualität bewerten. Sie bewerteten die Zusammenfassungen, ohne sie mit Referenzzusammenfassungen zu vergleichen, was eine direkte Bewertung basierend auf der Zusammenfassung selbst ermöglichte. Diese Methode ist besonders wertvoll, weil sie Modelle dazu anregt, relevante Zusammenfassungen zu präsentieren, die von konventionellen Referenztexten abweichen könnten.

Der Datensatz erlaubt es uns auch, häufige Muster in den gesammelten Bewertungen zu analysieren. Zum Beispiel erwarten wir, dass bessere Zusammenfassungsmodelle höhere Bewertungen erhalten. Wenn wir diese Erwartung bestätigen, können wir sicherstellen, dass der Datensatz effektiv die Qualität der von verschiedenen Systemen produzierten Zusammenfassungen erfasst.

Die Übereinstimmung unter den Beurteilern ist ebenfalls ein wichtiger Aspekt. Höhere Übereinstimmung deutet darauf hin, dass die Bewertungen zuverlässig sind. In Seahorse zeigten die Beurteiler ein hohes Mass an Übereinstimmung über die Qualität der Zusammenfassungen, was auf ein solides Verständnis der Bewertungskriterien hinweist.

Nachdem die Bewertungen gesammelt wurden, war der nächste Schritt zu testen, wie gut die neuen Metriken menschliche Bewertungen vorhersagen. Wir haben mehrere Modelle mit Seahorse trainiert und ihre Leistung mit anderen bestehenden Methoden verglichen. Die Ergebnisse zeigten, dass die mit Seahorse trainierten Metriken die traditionellen Baselines konstant übertrafen, was die Effektivität des Datensatzes demonstriert.

Darüber hinaus haben wir auch evaluiert, wie gut diese Metriken auf andere Benchmark-Datensätze übertragbar sind. Die Fähigkeit der mit Seahorse trainierten Metriken, auf verschiedenen Datensätzen gut abzuschneiden, zeigt, dass sie zuverlässig zur Bewertung von Zusammenfassungen in mehreren Sprachen und Aufgaben genutzt werden können.

Zusammenfassend lässt sich sagen, dass Seahorse einen umfassenden Datensatz für die Bewertung von Zusammenfassungen in mehreren Sprachen bietet, der sechs Qualitätsdimensionen abdeckt. Das macht ihn zu einer der umfangreichsten mehrsprachigen Bewertungsstudien bis heute. Ausserdem wird der Datensatz offen geteilt, was es Forschern ermöglicht, auf dieser Arbeit aufzubauen und die Technologien zur Zusammenfassung weiter zu verbessern.

Die Zusammenfassungen innerhalb des Datensatzes stammen aus vier verschiedenen Datensätzen, die verschiedene Quellen enthalten, um eine breite Repräsentation von Inhalten sicherzustellen. Indem wir uns auf sechs Sprachen konzentrieren, berücksichtigen wir sowohl geografische als auch typologische Vielfalt bei der Erstellung von Zusammenfassungen. Die vertretenen Sprachen sind Deutsch, Englisch, Spanisch, Russisch, Türkisch und Vietnamesisch.

Die Zusammenfassungen wurden aus einer Auswahl von Artikeln erstellt, die aus den Validierungs- und Testteilen der ursprünglichen Datensätze ausgewählt wurden. Diese sorgfältige Auswahl ermöglicht es uns, die Verwendung von Testdaten zu vermeiden, die die Ergebnisse beim Training von Bewertungsmetriken verzerren könnten. Die Zusammenfassungen selbst wurden von mehreren Systemen produziert, die eine Reihe von Qualitätsstufen in den Zusammenfassungen erfassen.

Um die Qualität des Datensatzes weiter zu analysieren, haben wir gängige Merkmale wie die durchschnittliche Länge der Zusammenfassungen und die Häufigkeit von hochqualitativen Bewertungen untersucht. Die Ergebnisse zeigen, dass viele Zusammenfassungen positive Bewertungen für Verständlichkeit, Grammatik und Wiederholung erhielten, während Bereiche wie Zuordnung, Hauptideen und Kürze tendenziell niedrigere Bewertungen erhielten. Diese Unterscheidung hebt die fortwährenden Herausforderungen hervor, denen die Zusammenfassungsmodelle gegenüberstehen.

Der Bewertungsprozess für Seahorse beinhaltete geschulte Beurteiler, die jede Zusammenfassung überprüften und sie anhand vordefinierter Kriterien bewerteten. Die Bewerter beantworteten Fragen zu den Zusammenfassungen, ohne Vergleichstexte heranzuziehen, was eine genauere Bewertung der Zusammenfassungen selbst ermöglichte. Dieser Ansatz erfasst auch Aspekte der Qualität, die in einer traditionellen bewertungsbasierten Bewertung möglicherweise übersehen werden.

Abschliessend lässt sich sagen, dass Seahorse einen bedeutenden Schritt nach vorne im Bereich der Bewertungsforschung darstellt. Durch die Bereitstellung eines grossangelegten, mehrsprachigen Datensatzes mit umfassenden menschlichen Bewertungen eröffnet es neue Möglichkeiten für Forscher und Entwickler, Zusammenfassungsmodelle und deren Bewertungsmethoden zu verbessern. Das Ziel ist es, sicherzustellen, dass zukünftige Fortschritte in der Technologie der Zusammenfassung zuverlässig bewertet und verfeinert werden können, was letztendlich zu besseren Zusammenfassungen in verschiedenen Sprachen und Inhaltstypen führt.

Originalquelle

Titel: SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization Evaluation

Zusammenfassung: Reliable automatic evaluation of summarization systems is challenging due to the multifaceted and subjective nature of the task. This is especially the case for languages other than English, where human evaluations are scarce. In this work, we introduce SEAHORSE, a dataset for multilingual, multifaceted summarization evaluation. SEAHORSE consists of 96K summaries with human ratings along 6 dimensions of text quality: comprehensibility, repetition, grammar, attribution, main ideas, and conciseness, covering 6 languages, 9 systems and 4 datasets. As a result of its size and scope, SEAHORSE can serve both as a benchmark to evaluate learnt metrics, as well as a large-scale resource for training such metrics. We show that metrics trained with SEAHORSE achieve strong performance on the out-of-domain meta-evaluation benchmarks TRUE (Honovich et al., 2022) and mFACE (Aharoni et al., 2022). We make the SEAHORSE dataset and metrics publicly available for future research on multilingual and multifaceted summarization evaluation.

Autoren: Elizabeth Clark, Shruti Rijhwani, Sebastian Gehrmann, Joshua Maynez, Roee Aharoni, Vitaly Nikolaev, Thibault Sellam, Aditya Siddhant, Dipanjan Das, Ankur P. Parikh

Letzte Aktualisierung: 2023-11-01 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2305.13194

Quell-PDF: https://arxiv.org/pdf/2305.13194

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel