Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Künstliche Intelligenz

Ein neuer Ansatz für maschinelle Übersetzung von komplexen Daten

Eine Methode vorstellen, die die maschinelle Übersetzung verbessert, indem sie die Beziehungen zwischen den Komponenten berücksichtigt.

― 15 min Lesedauer


Die Revolution derDie Revolution dermaschinellen Übersetzungberücksichtigt.verbessern, indem man DatenbeziehungenEine Methode, um die Übersetzung zu
Inhaltsverzeichnis

Grosses Sprachressourcen zu übersetzen, um Ressourcen für weniger verbreitete Sprachen zu schaffen, ist eine gängige Methode. Wenn man sich mit komplexen Datensätzen beschäftigt, die aus mehreren Teilen bestehen, ist es üblich, jeden Teil separat zu übersetzen. Diese Methode kann jedoch übersehen, wie die Teile zueinander in Beziehung stehen. Um das zu beheben, schlagen wir einen neuen Ansatz für maschinelles Übersetzen vor, der berücksichtigt, wie die Teile innerhalb des gleichen Datenpunkts interagieren. Wir nennen diesen Ansatz "intra-Daten-Beziehung." In unserem maschinellen Übersetzungsprozess kombinieren wir alle Teile eines Datenpunkts in einen einzigen Übersetzungsstring und zerlegen ihn nach der Übersetzung wieder in seine Teile.

Wir stellen zwei Werkzeuge vor, die bei diesem Prozess helfen: die Catalyst Statement (CS), um die Beziehung zwischen den Teilen zu verbessern, und das Indicator Token (IT), um den übersetzten String wieder in seine ursprünglichen Komponenten zu trennen. Unsere Methode hat gezeigt, dass sie die Übersetzungsqualität und die Trainingseffektivität signifikant verbessert. Im Vergleich zu der üblichen Methode, jeden Teil separat zu übersetzen, liefert unsere Technik bessere Trainingsdaten und verbessert die Modellleistung bei Aufgaben wie der Rangfolge von Webseiten um 2,690 Punkte und der Fragen-Generierung um 0,845 Punkte.

Herausforderungen bei der Datenübersetzung

Maschinelles Übersetzen wurde entwickelt, um Sprachen genau zu übersetzen, wobei der Fokus darauf liegt, jeden gegebenen Text zu übersetzen und dessen Bedeutung und Fluss beizubehalten. Frühe Systeme für maschinelles Übersetzen hatten jedoch oft eine schlechte Leistung, wodurch ihre übersetzten Ausgaben selten als zuverlässige Datenquelle genutzt wurden. Mit den Fortschritten in der Forschung zu maschinellem Übersetzen hat sich die Leistung dieser Systeme verbessert und sie sind jetzt vergleichbarer mit menschlicher Übersetzung. Kürzlich gab es Bemühungen, maschinelles Übersetzen für die Übersetzung verschiedener Datensätze zu nutzen, insbesondere nicht-englischer Datensätze, die durch die Übersetzung englischer Datensätze erstellt werden.

Eine Sorge bei der Verwendung von maschinellem Übersetzen für die Datenübersetzung ist, sicherzustellen, dass die Verbindungen zwischen den Teilen während des Übersetzungsprozesses intakt bleiben. Ein einzelner Datenpunkt kann aus mehreren Komponenten bestehen. Zum Beispiel hat jeder Punkt in Aufgaben zur natürlichen Sprachinferenz drei Teile: die Hypothese, die Prämisse und ein Label. Bei der Übersetzung solcher komplexen Daten gibt es oft ein Dilemma, wie man die Daten eingibt, da Systeme für maschinelles Übersetzen normalerweise nur eine Textsequenz auf einmal bearbeiten.

Aktuelle Studien übersetzen oft einzelne Datenparts separat. Diese Methode liefert jedoch möglicherweise nicht optimale Ergebnisse, da die Beziehungen zwischen den Teilen ignoriert werden können. Das kann dazu führen, dass übersetzte Paare das ursprüngliche Label nicht beibehalten, auch wenn jeder Teil korrekt übersetzt werden kann. Das kann die Leistung von Modellen beeinträchtigen, die mit solchen übersetzten Daten trainiert werden, da die Bedeutung der Aufgabe oft von den Beziehungen zwischen den Datenkomponenten abhängt.

Theoretisch kann dieses Problem verringert werden, indem einfach alle Teile vor der Übersetzung zu einer einzigen Sequenz kombiniert werden. Auf diese Weise kann das System für maschinelles Übersetzen die Bedeutungen der anderen Teile während der Übersetzung berücksichtigen. Allerdings führt das häufig dazu, dass das System alle Komponenten zusammenführt, was zu einem einzigen Text führt, der schwer wieder zu trennen ist. Das erschwert es, die einzelnen Teile nach der Übersetzung zu unterscheiden.

Angesichts dieser Probleme schlagen wir eine einfache, aber effektive Strategie für maschinelles Übersetzen vor, die auf jedem bestehenden System für maschinelles Übersetzen angewendet werden kann, ohne dass eine erneute Schulung erforderlich ist. Unser Ansatz konzentriert sich darauf, verbundene Komponenten in eine Sequenz zu kombinieren, wobei zwei wichtige Aspekte berücksichtigt werden: (1) die Beziehung zwischen den Komponenten sollte in der kombinierten Sequenz anerkannt werden, und (2) der übersetzte String sollte leicht in die einzelnen Komponenten zurückverwandelt werden können. Dazu verwenden wir das Indicator Token (IT) und die Catalyst Statement (CS). Das IT soll die Position jeder Komponente markieren und später helfen, den übersetzten String zu zerlegen. Die CS soll die Beziehung zwischen den Komponenten im kombinierten String klar definieren.

Vorgeschlagene Übersetzungspipeline

Um den gesamten Prozess zu erklären, betrachten wir Daten als bestehend aus zwei Teilen: einem Eingabesatz und einem Labelsatz. Wir schlagen eine einfache dreistufige Pipeline für maschinelles Übersetzen vor.

Zuerst kombinieren wir die verschiedenen Komponenten in eine einzige Sequenz zur Übersetzung. Während dieser Kombination integrieren wir die Catalyst Statement und das Indicator Token. Die CS steht am Anfang des Strings, um die Beziehung zwischen den Datenteilen zu definieren, während das IT genau vor jeder Komponente platziert wird. Nach der Übersetzung extrahieren wir die Komponenten aus dem übersetzten String, indem wir ihn basierend auf dem IT aufteilen.

In unseren Experimenten haben wir Aufgaben gewählt, bei denen es entscheidend ist, die Beziehungen zwischen den Datenkomponenten aufrechtzuerhalten. Wir haben den XNLI-Datensatz und zwei Aufgaben aus dem XGLUE-Benchmark verwendet: Webseiten-Ranking (WPR) und Fragen-Generierung (QG). Wir haben englische Daten in fünf Sprachen übersetzt: Deutsch, Französisch, Chinesisch, Hindi und Vietnamesisch, und die Leistung der mit diesen übersetzten Datensätzen trainierten Modelle bewertet.

Verwandte Arbeiten

Es gibt zwei Hauptansätze zum Erstellen von Trainingsdaten mit Hilfe von Systemen für maschinelles Übersetzen. Der erste Ansatz zielt darauf ab, ein spezifisches Übersetzungssystem zu erstellen, das mit einem massgeschneiderten Datensatz trainiert wird. Zum Beispiel kann ein neues Übersetzungsmodell mit einem spezifischen Datensatz erstellt werden, um einem bestimmten Zweck zu dienen. Diese Versuche stehen jedoch vor Herausforderungen, wenn neu veröffentlichte Daten verwendet werden.

Der zweite Ansatz umfasst die Verwendung öffentlich verfügbarer Modelle für maschinelles Übersetzen ohne Änderungen, um Datensätze durch Übersetzung zu erstellen. Diese Methode schliesst Werkzeuge wie DeepL oder Google Translator ein, um mehrsprachige Trainingsdatensätze zu erstellen. Frühere Versuche, bestehende Modelle ohne Veränderungen zu verwenden, hatten jedoch Einschränkungen bezüglich der Übersetzungsqualität in Bezug darauf, wie die Komponenten zueinander in Beziehung stehen. Unser Fokus liegt darauf, eine einfache Übersetzungspipeline zu etablieren, die mit Systemen für maschinelles Übersetzen funktioniert und dabei die Beziehungen innerhalb der Daten berücksichtigt.

Problemstellung

In dieser Studie konzentrieren wir uns auf die Herausforderungen, die mit der Übersetzung von Daten verbunden sind, die mehrere Komponenten enthalten, unter Verwendung von Standard-Systemen für maschinelles Übersetzen. Zum Beispiel besteht die Daten in der Aufgabe zur Fragen-Generierung aus einem Textabschnitt und einer Frage. ES IST wichtig zu verstehen, dass diese Komponenten eine spezifische Beziehung haben: Eine Komponente ist ein Abschnitt, der die Frage generiert.

Bei der Übersetzung des Abschnitts zur Bildung eines übersetzten Paares muss die Übersetzung die Beziehung aufrechterhalten. Um sicherzustellen, dass die Übersetzungen diese Beziehung berücksichtigen, sollte das System für maschinelles Übersetzen beide Komponenten zusammen berücksichtigen, wenn jede übersetzt wird. Da Systeme für maschinelles Übersetzen jedoch normalerweise mit einzelnen Sequenzen arbeiten, kann das schwierig sein.

In den meisten Fällen wird also jeder Teil des gleichen Datenpunkts separat übersetzt, was zu einer schwächeren Qualität der übersetzten Komponenten als Trainingsdaten führt, da die Beziehung zwischen den Teilen nicht berücksichtigt wird. Dieses Problem kann teilweise gelöst werden, indem beide Komponenten vor der Übersetzung zu einem String kombiniert werden, sodass das System für maschinelles Übersetzen den Kontext aus allen Teilen nutzen kann.

Diese kombinierte Sequenz kann jedoch dazu führen, dass Übersetzungen nicht wieder in die ursprünglichen Teile zurückgetrennt werden können. Die Hauptprobleme bei der Datenübersetzung umfassen:

  1. Die Übersetzung einzelner Komponenten berücksichtigt nicht die Beziehungen zwischen den Teilen im gleichen Datenpunkt.
  2. Das Zusammenführen von Komponenten in eine einzige Sequenz, ohne Rücksicht zu nehmen, kann zu Übersetzungen führen, die nicht in die ursprünglichen Datenkomponenten zurückgebrochen werden können.

Unsere Lösung: Beziehungsgerechte Übersetzung

Um diese Probleme anzugehen, präsentieren wir eine unkomplizierte Strategie für die Datenübersetzung unter Verwendung eines beliebigen standardmässigen Systems für maschinelles Übersetzen. Unser Ansatz umfasst einen klaren dreistufigen Prozess.

Zunächst kombinieren wir die Teile in einen einzigen String, damit das System für maschinelles Übersetzen die Übersetzung durchführen kann. Während dieses Schrittes fügen wir die Catalyst Statement und das Indicator Token hinzu, um die Beziehungen zwischen den Komponenten zu verbessern und ihre Positionen später zu identifizieren. Die CS wird zu Beginn der Sequenz platziert, um die Verbindungen zwischen den Teilen klarer zu machen, während das IT direkt vor jeder Komponente angehängt wird.

Als nächstes übersetzen wir den kombinierten String mit dem System für maschinelles Übersetzen. Es ist wichtig, dass das IT nach der Übersetzung intakt bleibt. Wenn das IT verloren geht, wird es schwierig, die übersetzten Komponenten zu trennen, und wir müssen diese Daten möglicherweise verwerfen. Obwohl dies zu einem gewissen Verlust führen kann, zeigen umfassende Experimente, dass wir immer noch hochwertige Trainingsdaten aus dem verbleibenden übersetzten Material gewinnen können.

Schliesslich extrahieren wir die ursprünglichen Komponenten aus dem übersetzten String. Wir können dies tun, indem wir den übersetzten String basierend auf dem IT-Marker aufteilen. Auf diese Weise erhalten wir einen übersetzten Datensatz, bei dem jeder Datenpunkt unter Beibehaltung der Beziehung zwischen den Komponenten behandelt wird.

Indicator Token (IT)

Wenn man zwei oder mehr Komponenten in eine einzige Sequenz kombiniert, ist es entscheidend, die Grenzen klar zu kennzeichnen, um sicherzustellen, dass die Sequenz nach der Übersetzung wieder getrennt werden kann. Das könnte durch einfache Interpunktion geschehen. Allerdings kann sich die Interpunktion während des Übersetzungsprozesses ändern, also ist es besser, ein definitiveres Zeichen zu verwenden.

Wir fügen das IT vor jeder Datenkomponente hinzu, wenn wir sie in eine einzige Sequenz kombinieren, und markieren damit klar ihre Standorte. Wir erwarten, dass das IT während der Übersetzung unberührt bleibt, was es uns ermöglicht, die übersetzten Daten korrekt wieder zu trennen.

In unseren Experimenten haben wir einfache Symbole wie "@", "#", oder "*" als IT verwendet. Wir sind uns bewusst, dass es möglicherweise effektivere IT-Optionen gibt als diese Beispiele, und zukünftige Arbeiten könnten das weiter untersuchen.

Catalyst Statement (CS)

Während das Übersetzen kombinierter Sequenzen es uns ermöglicht, zu berücksichtigen, wie die Komponenten miteinander in Beziehung stehen, ist es möglicherweise nicht klar, wie diese Teile semantisch verbunden sind. Eine einfache Kombination könnte die Komponenten auseinander halten, was es dem System für maschinelles Übersetzen erschwert, ihre Beziehungen zu erkennen.

Um die Verbindungen zwischen den Komponenten zu verbessern, schlagen wir vor, eine CS hinzuzufügen. Dieser zusätzliche Satz klärt die Beziehung unter den Datenkomponenten in der Sequenz. Ziel ist es, die Verbindungen während des Übersetzungsprozesses klar zu halten, damit das System für maschinelles Übersetzen die Komponenten als eine zusammenhängende Einheit anstatt als separate Aussagen betrachten kann.

Wir definieren zwei Arten von CS: direkte Beziehungsdefinitionen und solche, die einfach Komponenten miteinander verbinden. In unserer Studie haben wir uns auf diese beiden Arten für Analysezwecke konzentriert, obwohl es auch andere Optionen gibt.

Experimentelle Einstellungen

Datensatzdetails

Um unseren Ansatz zu testen, haben wir den XNLI-Datensatz verwendet und Aufgaben aus dem XGLUE-Benchmark ausgewählt, insbesondere WPR und QG. Wir wollten vielfältige Ergebnisse erzielen, indem wir in zwei bis fünf Sprachen für jeden Datensatz experimentierten.

Evaluierungsdetails

Wir haben die Ergebnisse unserer Übersetzung anhand zweier Hauptkriterien bewertet: Datenreversibilität und Übersetzungsqualität. Reversibilität überprüft, ob ein übersetzter String wieder in seine ursprünglichen Komponenten umgewandelt werden kann. Wenn wir Komponenten zu einer Sequenz kombinieren, gilt ein Fehlschlagen beim separieren danach als Übersetzungsfehler.

Das zweite Kriterium ist die Gesamtqualität der übersetzten Daten. Wir wollen sicherstellen, dass unsere maschinelle Übersetzungspipeline die Nützlichkeit der übersetzten Daten für das Trainieren von Modellen verbessert. Wir haben die Labelgenauigkeit überprüft, um die Leistung bei NLI- und WPR-Aufgaben zu messen, und ROUGE-L-Werte für QG-Aufgaben verwendet.

Modell-Details

Wir haben mehrsprachige Systeme für maschinelles Übersetzen ausgewählt, die in der Lage sind, mehrere Sprachen zu übersetzen, insbesondere NLLB und M2M100. Wir haben kleinere Versionen der ursprünglichen grösseren Modelle verwendet: NLLB-600M, NLLB-1.3B und M2M100-418M. Nach der Übersetzung der Daten haben wir die übersetzten Datensätze unter Verwendung vortrainierter mehrsprachiger Sprachmodelle feinabgestimmt, um ihre Effektivität als Trainingsdaten zu bewerten.

Ergebnisse und Diskussion

Einfache Verkettung Garantiert Keine Reversibilität

Wir haben hervorgehoben, dass das Übersetzen einer kombinierten Sequenz oft zu Problemen führt, bei denen die übersetzte Ausgabe nicht wieder in separate Komponenten umgewandelt werden kann. Unsere Experimente zeigten, dass in vielen Fällen die übersetzten Sequenzen die ursprünglichen Marker verloren. Zum Beispiel führte die Verwendung des NLLB-1.3B-Modells für deutsche Trainingsdaten dazu, dass nur 19,47% der Datenpunkte erfolgreich erhalten blieben, was bedeutete, dass etwa 80% der übersetzten Sequenzen als Datenkomponenten unbrauchbar waren.

Hinzufügen von CS und IT-Auswahl Kann Probleme Lösen

Unsere Experimente zeigten, dass die Verwendung von CS und sorgfältige Auswahl von IT die Erfolgschancen der Reversibilität verbessern. Zum Beispiel führte die Verwendung von "@" als IT zu einem signifikanten Anstieg der Reversibilität im Vergleich zu anderen Symbolen. Darüber hinaus verbesserte die Einbeziehung einer CS die Leistung weiter, insbesondere wenn die CS die Beziehungen zwischen den Komponenten deutlicher definierte.

IT und CS Verbessern die Effektivität als Trainingsdaten

Obwohl wir die Reversibilität durch IT und CS erhöhen können, gibt es einen Kompromiss, da die separate Übersetzung jedes einzelnen Elements möglicherweise zu einem grösseren Datensatz führt. Wir sind jedoch der Meinung, dass die Qualität der Daten aus separaten Übersetzungen wahrscheinlich niedriger ist.

Unser Fokus liegt darauf, den Wert der übersetzten Daten für Trainingsinstanzen zu erhöhen. Wir haben gezeigt, dass unser Ansatz die Leistung von Modellen, die mit unseren übersetzten Daten trainiert wurden, erheblich verbessert im Vergleich zu individuell übersetzten Datenkomponenten.

Selbst Kleine Mengen Können Hochwertige Daten Liefern

Obwohl unsere beziehungsbewussten Übersetzungen möglicherweise weniger Datenpunkte als individuelle Übersetzungen liefern, war die Qualität auffällig besser. Zum Beispiel, selbst bei nur 28% der QG-Daten, die erhalten blieben, schnitten Übersetzungen, die die Beziehungen zwischen den Komponenten berücksichtigten, besser ab als die 100% Trainingsdaten, die durch separate Übersetzungen erzeugt wurden. Das validiert unseren Rahmen als eine praktikable Methode zur Gewinnung hochwertiger Trainingsdaten.

Beziehungsgerechte Übersetzung Produziert Bessere Daten

Unsere Ergebnisse zeigen, dass jede Methode, die Datenkomponenten zur Übersetzung kombiniert, besser abschneidet als separate Übersetzungen. Die Verbesserung der Interrelationen, die durch die CS definiert werden, führte zu besseren Ergebnissen und unterstreicht die Wichtigkeit, Beziehungen während der Übersetzung zu berücksichtigen.

LLM-Evaluation

Um die Auswirkungen unserer IT- und CS-Strategie weiter zu analysieren, haben wir grosse Sprachmodelle (LLMs) eingesetzt, um die Qualität der übersetzten Daten zu bewerten. Unsere Ergebnisse deuten darauf hin, dass der Ansatz die Anzahl der hochwertigen Datenpunkte merklich erhöhte, während die Fälle von niedriger Qualität abnahmen. Dies bestätigt die Effektivität unserer Technik in der Datenübersetzung.

IT und CS Verbessern die Übersetzungsqualität

Die Verwendung von Datensätzen, die menschlich generierte Referenzen enthalten, ermöglicht es uns, die Übersetzungsqualität zu messen. Unsere Analyse ergab, dass die Einbeziehung von IT und CS die Übersetzungsqualität im Vergleich zum traditionellen Ansatz der separaten Übersetzung erheblich steigert.

Tests über Verschiedene Systeme für maschinelles Übersetzen

Um die breite Anwendbarkeit unseres Rahmens zu überprüfen, haben wir seine Leistung über verschiedene Systeme für maschinelles Übersetzen bewertet. Die Ergebnisse zeigten konstant, dass unser Ansatz die Methode der separaten Übersetzung übertrifft.

Qualitative Analyse

Unsere Untersuchung der tatsächlichen Übersetzungsergebnisse bestätigte die Wirksamkeit von IT und CS in der Datenübersetzung. Wir fanden, dass beziehungsgerechte Übersetzungen die ursprüngliche Bedeutung und den Kontext besser beibehielten als bei separaten Übersetzungen der Komponenten.

Fazit

In dieser Studie haben wir die Herausforderungen bei der Übersetzung komplexer Daten unter Verwendung von Systemen für maschinelles Übersetzen betrachtet. Wir haben aufgezeigt, dass die separate Übersetzung jedes einzelnen Teils die Interrelationen verpasst, was zu Daten von geringerer Qualität führt. Während das Kombinieren von Komponenten in einen einzigen String helfen kann, besteht das Risiko, dass die Trennung der ursprünglichen Komponenten nach der Übersetzung schwierig ist.

Wir haben eine beziehungsbewusste Übersetzungspipeline vorgeschlagen, die IT und CS verwendet, um die Effektivität der übersetzten Daten zu erhöhen. Unsere empirischen Ergebnisse zeigen die Bedeutung der Berücksichtigung von Beziehungen zwischen den Komponenten für ein erfolgreiches maschinelles Übersetzen. Diese Arbeit legt den Grundstein für weitere Forschung auf dem Gebiet der Datenübersetzung.

Einschränkungen und zukünftige Forschung

Einschränkungen der experimentellen Einstellungen

Wir erkennen drei Hauptbeschränkungen in unseren Experimenten an. Erstens haben wir nur spezifische Typen von IT und CS getestet. Obwohl unsere Ergebnisse Verbesserungen zeigen, konnten wir nicht alle potenziellen Variationen erkunden, was Raum für zukünftige Studien lässt.

Zweitens haben wir die Arten von Systemen für maschinelles Übersetzen, die wir verwendet haben, eingeschränkt. Während wir einige Vielfalt abgedeckt haben, würde eine Erweiterung auf mehr Modelle die Generalisierbarkeit der Ergebnisse erhöhen.

Schliesslich haben wir unsere Sprachoptionen aufgrund von Ressourcenbeschränkungen eingeschränkt. Wir konnten nicht alle Sprachen in den Datensätzen testen, aber wir haben eine ausreichende Vielfalt einbezogen, um sicherzustellen, dass unsere Ergebnisse nicht voreingenommen sind.

Ethik-Erklärung

Unsere Studie hat öffentlich verfügbare Datensätze genutzt und dabei die notwendigen Vorschriften bezüglich des Urheberrechts der ursprünglichen Forschung beachtet. Wir haben bestätigt, dass unsere Verwendung dieser Datensätze keine ethischen Probleme darstellt.

Implementierungsdetails

Alle Experimente wurden auf einer einzigen GPU durchgeführt, mit einem bestimmten Satz an Lernraten, die für optimale Ergebnisse ausgewählt wurden. Die Konfigurationen für die Modelle wurden aus etablierten Bibliotheken für maschinelles Lernen entnommen.

Datensatzdetails

Wir haben unseren Ansatz mit dem XNLI-Datensatz und spezifischen Aufgaben aus dem XGLUE-Benchmark validiert. Die Aufgaben variierten in der Komplexität und umfassten Satzpaare, die in semantische Beziehungen oder Relevanzbewertungen kategorisiert wurden. Die Evaluierung erfolgte in mehreren Sprachen, um eine umfassende Analyse zu gewährleisten und Voreingenommenheit zu vermeiden.

LLM-Evaluierungsdetails

Wir haben LLMs eingesetzt, um die Qualität der übersetzten Datensätze zu bewerten und die Effektivität unserer Methodik zur Evaluierung der Übersetzungsqualität in unterschiedlichen Kontexten zu veranschaulichen.

Originalquelle

Titel: Translation of Multifaceted Data without Re-Training of Machine Translation Systems

Zusammenfassung: Translating major language resources to build minor language resources becomes a widely-used approach. Particularly in translating complex data points composed of multiple components, it is common to translate each component separately. However, we argue that this practice often overlooks the interrelation between components within the same data point. To address this limitation, we propose a novel MT pipeline that considers the intra-data relation in implementing MT for training data. In our MT pipeline, all the components in a data point are concatenated to form a single translation sequence and subsequently reconstructed to the data components after translation. We introduce a Catalyst Statement (CS) to enhance the intra-data relation, and Indicator Token (IT) to assist the decomposition of a translated sequence into its respective data components. Through our approach, we have achieved a considerable improvement in translation quality itself, along with its effectiveness as training data. Compared with the conventional approach that translates each data component separately, our method yields better training data that enhances the performance of the trained model by 2.690 points for the web page ranking (WPR) task, and 0.845 for the question generation (QG) task in the XGLUE benchmark.

Autoren: Hyeonseok Moon, Seungyoon Lee, Seongtae Hong, Seungjun Lee, Chanjun Park, Heuiseok Lim

Letzte Aktualisierung: 2024-09-24 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2404.16257

Quell-PDF: https://arxiv.org/pdf/2404.16257

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel