Bewertung der Qualität von maschineller Übersetzung im Laufe der Zeit
Eine Studie über die Leistung verschiedener Metriken für maschinelle Übersetzungen.
― 7 min Lesedauer
Inhaltsverzeichnis
- Hintergrund und verwandte Arbeiten
- Wie Metriken funktionieren
- Wie sich Metrikwerte im Laufe der Zeit ändern
- Genauigkeit der Metriken beim Ranking von Übersetzungssystemen
- Hängt die Zuverlässigkeit der Metriken von der Qualität des Systems ab?
- Auswirkungen von synthetischen Referenzen
- Fazit
- Originalquelle
- Referenz Links
Wir haben eine Sammlung von Daten erstellt, die Übersetzungen umfasst, die über sechs Jahre von maschinellen Übersetzungssystemen erzeugt wurden. Diese Sammlung deckt Übersetzungen unter 12 verschiedenen Sprachen ab. Die Hauptidee ist, zu bewerten, wie gut verschiedene Metriken abschneiden, wenn es darum geht, die Qualität von maschinellen Übersetzungen zu messen.
Typischerweise schauen Forscher, wie automatische Metriken, die zur Bewertung von Übersetzungen verwendet werden, mit menschlichen Meinungen übereinstimmen. Aber menschliche Meinungen zu bekommen, ist oft teuer und braucht eine Menge Zeit. Ausserdem verwenden die üblichen Studien oft nur ein paar Übersetzungssysteme, was es schwierig macht, allgemeine Schlussfolgerungen zu ziehen. In dieser Arbeit haben wir uns entschieden, einen anderen Ansatz zu wählen, indem wir Daten von kommerziellen maschinellen Übersetzungssystemen über einen längeren Zeitraum genutzt haben.
Wir haben wöchentlich maschinelle Übersetzungen gesammelt, indem wir Google Übersetzer genutzt haben, und angenommen, dass sich diese Systeme im Laufe der Zeit verbessern. Durch den Vergleich der Übersetzungen aus früheren Jahren mit den neueren können wir sehen, wie gut die Metriken die Qualität der Übersetzungen bewerten.
Unsere Ergebnisse unterstützen viele frühere Studien im Bereich der maschinellen Übersetzungsmetriken. Zum Beispiel haben wir gelernt, dass Metriken, die auf neuronaler Netztechnologie basieren, eine viel stärkere Verbindung zu menschlichen Urteilen zeigten als ältere, nicht-neurale Metriken. Wir fanden heraus, dass diese neuronalen Metriken im Laufe der Zeit konsequent Verbesserungen zeigten und die Qualität der Übersetzungen genauer bewerteten im Vergleich zu nicht-neuralen Metriken.
In früheren Studien wurde gezeigt, dass die Verbindung zwischen Metriken und menschlichen Bewertungen schwächer wird, wenn man sich nur auf die besten übersetzenden Systeme konzentriert. Allerdings hatten frühere Studien nur eine begrenzte Anzahl von Systemen, die berücksichtigt werden konnten, was es schwer machte, diese Idee vollständig zu bestätigen. In unserer Studie haben wir eine grössere Stichprobe verwendet und bestätigt, dass mit der Verbesserung der Leistung von Übersetzungssystemen die Korrelation zwischen den Metrikwerten und den menschlichen Urteilen tendenziell abnimmt.
Interessanterweise fanden wir heraus, dass hochwertige künstliche Übersetzungsreferenzen (die von Maschinen erstellt wurden) zu einer stärkeren Beziehung zwischen den Metrikwerten und den menschlichen Bewertungen führten im Vergleich zu Übersetzungen, die von Menschen gemacht wurden. Wir haben diesen Effekt für drei Sprachpaare untersucht und festgestellt, dass die Ergebnisse vergleichbar waren.
Hintergrund und verwandte Arbeiten
Metriken, die darauf ausgelegt sind, auf menschlichen Bewertungen trainiert zu werden, haben grosse Fortschritte gemacht, um menschliche Urteile genau widerzuspiegeln. Jüngste Forschungen legen nahe, dass diese Metriken auch auf neue Bereiche und Herausforderungen angewendet werden können.
In früheren Studien wurde beobachtet, dass die Korrelation zwischen Metriken und menschlichen Bewertungen tendenziell abnimmt, je weniger Top-Übersetzungssysteme vorhanden sind. Weitere Untersuchungen zeigten, dass kleine Stichprobengrössen zu dieser Instabilität führen könnten. In einer jüngsten gemeinsamen Aufgabe erhielten menschliche Übersetzungen überraschend niedrige Bewertungen, was zur Idee führte, künstliche Referenzen als nützliche Alternative zu verwenden.
Anstatt nur Metriken gegen menschliche Bewertungen zu vergleichen, haben einige Forscher untersucht, wie gut Metriken mit den Ergebnissen von Aufgaben übereinstimmen, die von der Übersetzungsqualität abhängen. Unsere Studie betrachtet auch Metriken, die darauf basieren, wie sie neuere Übersetzungen einordnen.
Die ursprünglichen Daten, die für unsere Studie verwendet wurden, stammen von Sätzen in Englisch, die ins Deutsche, Italienische, Spanische und Chinesische übersetzt wurden, wobei der Schwerpunkt hauptsächlich auf Nachrichteninhalten lag. Jede Sprache hatte 1.371 Sätze. Wir haben wöchentlich Übersetzungen von Mai 2018 bis März 2024 über verschiedene Sprachpaare gesammelt. Frühe Tests zeigten, dass es eine bemerkenswerte Ähnlichkeit zwischen professionellen Übersetzungen und den ersten Ausgaben der Systeme gab. Aufgrund dieses Befunds haben wir uns entschieden, Spanisch von der weiteren Analyse auszuschliessen, was uns 12 Sprachpaare übrig liess.
Wie Metriken funktionieren
Verschiedene Metriken haben einzigartige Möglichkeiten, Übersetzungen zu bewerten. Zum Beispiel überprüft BLEU, wie viele Wörter oder Phrasen in der Übersetzung mit denen in den Referenzübersetzungen übereinstimmen. chrF betrachtet stattdessen die Übereinstimmungen auf Zeichenebene. Andere Metriken, wie BERTScore, nutzen fortgeschrittene Modelle, um die Bedeutung von Übersetzungen zu vergleichen, anstatt nur die Wörter.
Einige Metriken wurden auf menschlichen Bewertungen trainiert, um bessere Einschätzungen zu liefern. Dazu gehören COMET-20, UniTE, COMET-22 und andere. Wir haben verschiedene Modelle verwendet, um Übersetzungen zu bewerten und ihre Werte mit den Rankings der Übersetzungsqualität im Laufe der Zeit zu vergleichen.
Wie sich Metrikwerte im Laufe der Zeit ändern
Wir erwarteten, dass die Metrikwerte die Verbesserungen zeigen würden, die Übersetzungssysteme im Laufe der Zeit machen. Um dies zu untersuchen, haben wir untersucht, wie die Werte über spezifische Sprachpaare schwankten und festgestellt, dass insgesamt viele Metriken einen Aufwärtstrend über diese Paare zeigten.
Um zu messen, wie konsistent diese Aufwärtstrends waren, verwendeten wir eine statistische Methode namens Spearman-Korrelation. Metriken, die höhere Korrelationen zeigten, wurden als zuverlässiger angesehen, um die Gesamtqualität der Systeme widerzuspiegeln. Unsere Ergebnisse deuteten darauf hin, dass Metriken wie COMET-22 und andere eine starke Korrelation über die meisten Sprachpaare hinweg zeigten.
Genauigkeit der Metriken beim Ranking von Übersetzungssystemen
In unserer Arbeit haben wir bewertet, wie gut die Metriken neuere Systeme gegenüber älteren einordnen konnten. Wir gingen davon aus, dass neuere Übersetzungen typischerweise besser sind als ältere, also berechneten wir die Genauigkeit basierend darauf, wie oft die Metriken mit dem erwarteten Ranking übereinstimmten.
Wir schauten uns Systempaare an, die über einen kürzeren Zeitraum entwickelt wurden, um eine Überschätzung der Zuverlässigkeit der Metriken zu vermeiden. Das ermöglichte eine klarere Sicht darauf, wie gut die Metriken in der Unterscheidung zwischen der Qualität der verschiedenen Systeme abschneiden.
Unsere Ergebnisse deuteten darauf hin, dass trainierte Metriken insgesamt besser abschnitten als nicht trainierte Metriken. Unter allen Metriken hatte COMET-22 die höchste Genauigkeit beim Ranking von Übersetzungssystemen. Oberflächliche Metriken wie chrF schnitten besser ab als BLEU, wobei chrF die beste Genauigkeit für Übersetzungen ins Englische erzielte.
Hängt die Zuverlässigkeit der Metriken von der Qualität des Systems ab?
Wir haben die Idee untersucht, dass die Zuverlässigkeit der Metriken abnehmen könnte, je besser die Übersetzungssysteme werden. Unsere grössere Stichprobe ermöglichte es uns, diese Frage gründlicher zu erkunden. Wir betrachteten verschiedene Szenarien für verschiedene Metriken und fanden heraus, dass die Trends unterschiedlich waren.
Zum Beispiel zeigten in einem Sprachpaar trainierte Metriken im Laufe der Zeit Verbesserungen, während oberflächliche Metriken dies nicht taten. In vielen Fällen bemerkten wir einen Abwärtstrend in der Zuverlässigkeit über mehrere Sprachpaare.
Auswirkungen von synthetischen Referenzen
Um weiter zu bewerten, wie die Metriken abschnitten, generierten wir synthetische Referenzen mit einem anderen maschinellen Übersetzungssystem. Wir untersuchten diese synthetischen Referenzen für drei spezifische Sprachpaare und verglichen ihre Auswirkungen auf die Bewertungsmetriken.
Die Gesamtergebnisse zeigten, dass die Verwendung synthetischer Referenzen die Genauigkeit der Metriken über die untersuchten Sprachpaare hinweg verbesserte. Das deutet darauf hin, dass künstliche Referenzen bei der Bewertung der Übersetzungsqualität hilfreich sein können.
Fazit
Durch unsere Untersuchung haben wir viele frühere Beobachtungen zu maschinellen Übersetzungsmetriken bestätigt. Unser Datensatz, der mehrere Sprachpaare umfasst, liefert stärkere Beweise für die Beziehung zwischen Übersetzungsqualität und Metrikzuverlässigkeit als frühere Datensätze.
Wir ermutigen andere Forscher, unseren Datensatz für zusätzliche Studien zu maschinellen Übersetzungsmetriken zu verwenden oder zu untersuchen, wie sich die Übersetzungsqualität im Laufe der Zeit verändert. Unsere Annahme, dass neuere Systeme normalerweise besser sind als ältere, ist sinnvoll, könnte aber nicht immer zutreffen.
In zukünftigen Arbeiten planen wir, die Leistung neuerer Bewertungsmetriken zu erforschen, die grosse Sprachmodelle nutzen. Das wird jedoch eine Menge Ressourcen erfordern, und wir haben sie nicht in unsere aktuelle Studie einbezogen. Insgesamt trägt unsere Arbeit zum Wissen über automatische Metriken in der maschinellen Übersetzung bei und bietet eine solide Grundlage für weitere Forschung in diesem Bereich.
Titel: Evaluating Automatic Metrics with Incremental Machine Translation Systems
Zusammenfassung: We introduce a dataset comprising commercial machine translations, gathered weekly over six years across 12 translation directions. Since human A/B testing is commonly used, we assume commercial systems improve over time, which enables us to evaluate machine translation (MT) metrics based on their preference for more recent translations. Our study not only confirms several prior findings, such as the advantage of neural metrics over non-neural ones, but also explores the debated issue of how MT quality affects metric reliability--an investigation that smaller datasets in previous research could not sufficiently explore. Overall, our research demonstrates the dataset's value as a testbed for metric evaluation. We release our code at https://github.com/gjwubyron/Evo
Autoren: Guojun Wu, Shay B. Cohen, Rico Sennrich
Letzte Aktualisierung: 2024-10-03 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2407.03277
Quell-PDF: https://arxiv.org/pdf/2407.03277
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.