Die Übersetzungsqualität mit KI-Modellen verbessern
Forschung zeigt, dass KI-Modelle die Bewertung der Übersetzungsqualität effizient verbessern können.
― 6 min Lesedauer
Inhaltsverzeichnis
- Die Rolle von grossen Sprachmodellen
- Studienmethodik
- Maschinelle Übersetzung und menschliche Bearbeitung
- Vorhersage der Übersetzungsqualität
- Training und Testen des Modells
- Ergebnisse des Experiments
- Auswirkungen auf Übersetzungsprozesse
- Erweiterung auf andere Sprachen und zukünftige Arbeiten
- Fazit
- Originalquelle
- Referenz Links
Die Übersetzungsqualitätsbewertung (TQE) ist ein wichtiger Prozess, um sicherzustellen, dass Übersetzungen genau und geeignet sind. Dieser Schritt ist entscheidend, weil er es den Bewertenden ermöglicht, die Qualität von maschinell erzeugten Übersetzungen zu beurteilen, ohne eine Referenzübersetzung zum Vergleich zu benötigen. Im Grunde hilft TQE festzustellen, ob eine Übersetzung bearbeitet werden muss, bevor sie veröffentlicht oder verwendet wird.
Die Rolle von grossen Sprachmodellen
Mit den Fortschritten in der Technologie werden Grosse Sprachmodelle (LLMs) wie ChatGPT getestet, um ihre Fähigkeit zur Verbesserung von TQE zu überprüfen. Die Idee ist, dass diese Modelle durch Feineinstellung mit historischen Daten lernen können, vorherzusagen, ob ein Übersetzungssegment korrekt ist oder ob es Korrekturen benötigt. Diese Forschung konzentriert sich darauf, ChatGPT zu nutzen, um die Qualität von Übersetzungen in verschiedenen Sprachen zu bestimmen.
Studienmethodik
Die Methodik bestand darin, Übersetzungsdaten aus verschiedenen Projekten zu sammeln. Acht Sprachpaare wurden betrachtet, darunter Übersetzungen von Englisch nach Italienisch, Deutsch, Französisch, Japanisch, Niederländisch, Portugiesisch, Türkisch und Chinesisch. Historische Daten aus früheren Projekten wurden genutzt, um das Modell zu trainieren. Das Ziel war es, die Leistung des Modells bei der Vorhersage des Bearbeitungsbedarfs in maschinellen Übersetzungsergebnissen zu optimieren.
Maschinelle Übersetzung und menschliche Bearbeitung
In vielen modernen Übersetzungsprojekten folgt auf die maschinelle Übersetzung (MT) oft ein Schritt namens Post-Editing (PE), bei dem menschliche Übersetzer den maschinell erzeugten Text überprüfen und verfeinern. Während MT den Übersetzungsprozess beschleunigen kann, sind die Ergebnisse nicht immer perfekt. Fehler können durch falsche Übersetzungen, falsche Terminologie oder faktische Fehler entstehen. Daher ist menschliches Eingreifen notwendig, um ein qualitativ hochwertiges Ergebnis sicherzustellen.
Trotz dieser Fehler wurde festgestellt, dass ein erheblicher Teil der Segmente in maschinellen Übersetzungen nach der menschlichen Überprüfung unverändert bleibt. Statistiken zeigen, dass dieser Anteil zwischen 10 % und 70 % liegen kann. Das wirft eine interessante Frage auf: Können maschinelles Lernen Methoden genutzt werden, um diese Segmente zu identifizieren, sodass menschliche Übersetzer sich nur auf die wirklich kritischen konzentrieren können?
Vorhersage der Übersetzungsqualität
Um diese Frage anzugehen, wurde der Fokus auf die Erstellung eines Systems gelegt, das Übersetzungssegmente als bearbeitungsbedürftig oder nicht klassifizieren kann. Durch den Einsatz von maschinellem Lernen war das Ziel, den Übersetzungsprozess zu beschleunigen und Kosten zu senken, während dennoch qualitativ hochwertige Übersetzungen geliefert werden.
Die Forschung untersuchte frühere Wettbewerbe zur Übersetzungsqualitätsbewertung, wie zum Beispiel den Workshop zur maschinellen Übersetzung (WMT), um zu sehen, wie andere Teams ähnliche Herausforderungen angegangen sind. Das Ziel war es zu prüfen, ob das fein abgestimmte ChatGPT-Modell effektiv bei der Identifizierung von Übersetzungsfehlern arbeiten kann.
Training und Testen des Modells
Die Studie umfasste das Training des ChatGPT-Modells mit einer grossen Menge an Daten, die aus früheren Übersetzungsprojekten gesammelt wurden. Die Trainingsdaten beinhalteten den ursprünglichen englischen Text, die maschinell erzeugte Ausgabe und die von menschlichen Übersetzern bearbeitete Version.
Der Feineinstellungsprozess zielte darauf ab, das Modell dazu zu bringen, zu erkennen, welche Übersetzungssegmente Änderungen benötigten, basierend auf den vorgenommenen Bearbeitungen durch Profis. Ein bedeutender Teil dieses Trainings bestand darin, die Daten in Trainings- und Testsets zu unterteilen, um die Leistung des Modells zu bewerten.
Als das trainierte Modell getestet wurde, zeigte es vielversprechende Ergebnisse. Es konnte mit einer fairen Genauigkeit vorhersagen, ob Übersetzungssegmente Bearbeitungen benötigten.
Ergebnisse des Experiments
Die Ergebnisse zeigten, dass das Modell in bestimmten Sprachen am besten abschnitt. Zum Beispiel lagen die Genauigkeitsraten für die Segmente Englisch-Italienisch und Englisch-Deutsch bei etwa 82,42 % bzw. 83,69 %. Das bedeutet, dass das Modell viele Segmente korrekt identifizierte, die entweder in Ordnung waren oder bearbeitet werden mussten.
Es gab jedoch auch Herausforderungen. Die Studie stellte fest, dass das Modell viele Segmente erfolgreich kategorisierte, es gab aber auch Fälle, in denen es Segmente irrtümlich als bearbeitungsbedürftig einstufte oder fälschlicherweise vorhersagte, dass bestimmte Segmente in Ordnung seien, während sie tatsächlich Aufmerksamkeit benötigten.
Auswirkungen auf Übersetzungsprozesse
Die Ergebnisse deuten darauf hin, dass die Implementierung eines solchen prädiktiven Modells in Übersetzungsabläufe die für das Post-Editing benötigte Zeit erheblich reduzieren könnte. Durch die Identifizierung von Segmenten, die keine Änderungen benötigen, können Übersetzer ihre Anstrengungen auf problematische Segmente konzentrieren, was die Effizienz erhöht.
Es wurden zwei Strategien entwickelt, um den Übersetzungsprozess mit den Vorhersagen des Modells zu verbessern:
Ausschluss von Segmenten aus der menschlichen Überprüfung: Segmente, die das Modell als in Ordnung vorhersagt, könnten ohne weitere menschliche Überprüfung veröffentlicht werden. Dieser Ansatz würde stark von der Genauigkeit der Vorhersagen des Modells abhängen, aber wenn die Fehlerquote gering bleibt, könnte er erhebliche Zeit und Ressourcen sparen.
Markierung von Segmenten als niedrig-prioritär für die Überprüfung: Alternativ könnten Segmente, die als in Ordnung vorhergesagt werden, für eine niedrig-prioritäre Überprüfung durch Übersetzer hervorgehoben werden. So könnten menschliche Übersetzer diese Segmente trotzdem überprüfen, aber mit geringerem Aufwand und Kosten.
Erweiterung auf andere Sprachen und zukünftige Arbeiten
Die Studie erkundete auch Ergebnisse aus zusätzlichen Sprachpaaren, einschliesslich Englisch-Französisch, Japanisch, Niederländisch, Portugiesisch, Türkisch und Chinesisch. Die Vorhersagegenauigkeit variierte in diesen Sprachen, ähnlich wie bei den ursprünglichen beiden getesteten Sprachpaaren.
Die zukünftige Ausrichtung dieser Forschung umfasst mehrere zentrale Bereiche:
- Fortgesetzte Feineinstellung des Modells mit zusätzlichen Daten zur Verbesserung der Genauigkeit.
- Test des Modells über mehr Sprachpaare hinweg, um zu sehen, ob es aus einer breiteren Datenbasis effektiv lernen kann.
- Bewertung, wie das Modell auf Übersetzungen reagiert, die von nicht-expertischen Übersetzern erzeugt wurden, um zu prüfen, ob es Fehler identifizieren kann, die während dieses Prozesses entstanden sind.
- Untersuchung der Möglichkeit, detailliertes Feedback zu bestimmten Übersetzungsfehlern zu geben, um die Übersetzungsqualität weiter zu verbessern.
Fazit
Zusammenfassend zeigt die Studie, dass grosse Sprachmodelle wie ChatGPT Potenzial zur Verbesserung des Prozesses der Übersetzungsqualitätsbewertung haben. Durch die Nutzung historischer Daten zur Schulung dieser Modelle ist es möglich, Segmente von Übersetzungen zu identifizieren, die Bearbeitungen benötigen, was möglicherweise den Workflow beschleunigt und Kosten senkt. Während die Forschung fortgesetzt wird, gibt es Hoffnungen, dass diese Modelle ihre Fähigkeiten noch weiter verfeinern können, um qualitativ hochwertige Übersetzungen mit weniger menschlichem Eingreifen zu erreichen.
Titel: MTUncertainty: Assessing the Need for Post-editing of Machine Translation Outputs by Fine-tuning OpenAI LLMs
Zusammenfassung: Translation Quality Evaluation (TQE) is an essential step of the modern translation production process. TQE is critical in assessing both machine translation (MT) and human translation (HT) quality without reference translations. The ability to evaluate or even simply estimate the quality of translation automatically may open significant efficiency gains through process optimisation. This work examines whether the state-of-the-art large language models (LLMs) can be used for this purpose. We take OpenAI models as the best state-of-the-art technology and approach TQE as a binary classification task. On eight language pairs including English to Italian, German, French, Japanese, Dutch, Portuguese, Turkish, and Chinese, our experimental results show that fine-tuned gpt3.5 can demonstrate good performance on translation quality prediction tasks, i.e. whether the translation needs to be edited. Another finding is that simply increasing the sizes of LLMs does not lead to apparent better performances on this task by comparing the performance of three different versions of OpenAI models: curie, davinci, and gpt3.5 with 13B, 175B, and 175B parameters, respectively.
Autoren: Serge Gladkoff, Lifeng Han, Gleb Erofeev, Irina Sorokina, Goran Nenadic
Letzte Aktualisierung: 2024-06-21 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2308.00158
Quell-PDF: https://arxiv.org/pdf/2308.00158
Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Using+LLMs+for+Quality+Estimation+of+MT+outputs&btnG=
- https://www.sap.com/
- https://www.stat.purdue.edu/~lfindsen/stat503/t-Dist.pdf
- https://www.itl.nist.gov/div898/handbook/eda/section3/eda3664.htm
- https://www.itl.nist.gov/div898/handbook/eda/section3/eda3672.htm
- https://mathworld.wolfram.com/Studentst-Distribution.html