Valutare la qualità della traduzione automatica nel tempo
Uno studio sulle performance di vari metriche per le traduzioni automatiche.
― 7 leggere min
Indice
- Contesto e Lavori Correlati
- Come Funzionano le Metriche
- Come i Punteggi delle Metriche Cambiano nel Tempo
- Accuratezza delle Metriche nel Classificare i Sistemi di Traduzione
- L'Affidabilità delle Metriche Dipende dalla Qualità del Sistema?
- Impatto dei Riferimenti Sintetici
- Conclusione
- Fonte originale
- Link di riferimento
Abbiamo creato una collezione di dati che include traduzioni prodotte da sistemi di Traduzione automatica in sei anni. Questa collezione copre traduzioni tra 12 lingue diverse. L'idea principale è valutare quanto bene diverse metriche funzionano quando si misura la qualità delle traduzioni automatiche.
Di solito, i ricercatori guardano a come le metriche automatiche, che vengono usate per valutare le traduzioni, si allineano con le opinioni umane. Tuttavia, ottenere opinioni umane è spesso costoso e richiede tempo. Inoltre, gli studi abituali usano spesso solo pochi sistemi di traduzione, il che rende difficile trarre conclusioni generali. In questo lavoro, abbiamo deciso di prendere un approccio diverso utilizzando dati da sistemi di traduzione automatica commerciali per un lungo periodo.
Abbiamo raccolto traduzioni automatiche settimanalmente, usando Google Translate, e abbiamo assunto che questi sistemi migliorino nel tempo. Confrontando le traduzioni degli anni precedenti con quelle più recenti, possiamo vedere come le metriche valutano la qualità delle traduzioni.
I nostri risultati supportano molti studi precedenti nel campo delle metriche di traduzione automatica. Ad esempio, abbiamo scoperto che le metriche basate su tecnologia di reti neurali mostrano una connessione molto più forte con i giudizi umani rispetto alle metriche non neurali. Abbiamo trovato che queste Metriche Neurali mostrano costantemente miglioramenti nel tempo e valutano la qualità delle traduzioni in modo più accurato rispetto alle metriche non neurali.
In studi precedenti, è stato dimostrato che la connessione tra metriche e valutazioni umane diventa più debole quando ci si concentra solo sui sistemi di traduzione con le migliori prestazioni. Tuttavia, gli studi precedenti avevano un numero limitato di sistemi da considerare, rendendo difficile confermare appieno questa idea. Nel nostro studio, abbiamo utilizzato un campione più ampio e confermato che man mano che le prestazioni dei sistemi di traduzione migliorano, la correlazione tra i punteggi delle metriche e i giudizi umani tende a diminuire.
È interessante notare che abbiamo trovato che riferimenti artificiali di alta qualità (creati da macchine) portano a una relazione più forte tra i punteggi delle metriche e le valutazioni umane rispetto alle traduzioni fatte da umani. Abbiamo esaminato questo effetto per tre coppie di lingue e abbiamo notato che i risultati erano comparabili.
Contesto e Lavori Correlati
Le metriche progettate per essere addestrate su valutazioni umane hanno mostrato grandi progressi nel corrispondere strettamente ai giudizi umani. Ricerche recenti suggeriscono che queste metriche possono essere applicate anche a nuove aree e sfide.
Negli studi passati, si è osservato che la correlazione tra metriche e punteggi umani tendeva a diminuire con un numero ridotto di migliori sistemi di traduzione. Ulteriori indagini hanno indicato che campioni di dimensioni ridotte potrebbero portare a questa instabilità. In un compito condiviso recente, le traduzioni umane hanno ricevuto valutazioni sorprendentemente basse, il che ha portato all'idea di utilizzare riferimenti artificiali come alternativa utile.
Invece di confrontare solo le metriche con le valutazioni umane, alcuni ricercatori hanno esplorato quanto bene le metriche si allineano con i risultati di compiti che dipendono dalla qualità della traduzione. Anche il nostro studio guarda alle metriche in base a come classificano le traduzioni più recenti.
I dati originali utilizzati per il nostro studio provengono da frasi in inglese tradotte in tedesco, italiano, spagnolo e cinese, concentrandosi principalmente su contenuti di notizie. Ogni lingua aveva 1.371 frasi. Abbiamo raccolto traduzioni settimanalmente da maggio 2018 a marzo 2024 tra varie coppie di lingue. I primi test hanno mostrato che c'era una notevole somiglianza tra traduzioni professionali e i primi output dai sistemi. A causa di questa scoperta, abbiamo deciso di escludere lo spagnolo dall'analisi successiva, lasciandoci con 12 coppie di lingue.
Come Funzionano le Metriche
Diverse metriche hanno modi unici di valutare le traduzioni. Ad esempio, BLEU controlla quante parole o frasi nella traduzione corrispondono a quelle nelle traduzioni di riferimento. chrF guarda invece alle corrispondenze dei caratteri. Altre metriche, come BERTScore, usano modelli avanzati per confrontare il significato delle traduzioni anziché solo le parole.
Alcune metriche sono state addestrate su punteggi umani per fornire valutazioni migliori. Queste includono COMET-20, UniTE, COMET-22 e altre. Abbiamo utilizzato diversi modelli per valutare le traduzioni e confrontare i loro punteggi con i ranghi della qualità della traduzione nel tempo.
Come i Punteggi delle Metriche Cambiano nel Tempo
Ci aspettavamo che man mano che i sistemi di traduzione migliorano nel tempo, i punteggi delle metriche riflettessero questi cambiamenti. Per indagare, abbiamo esaminato come i punteggi oscillavano su coppie di lingue specifiche e abbiamo notato che, nel complesso, molte metriche mostrano una tendenza al rialzo tra queste coppie.
Per misurare quanto fossero consistenti queste tendenze al rialzo, abbiamo utilizzato un metodo statistico chiamato correlazione di Spearman. Le metriche che mostrano correlazioni più elevate sono state considerate più affidabili nel riflettere la qualità complessiva dei sistemi. I nostri risultati indicano che metriche come COMET-22 e altre mostrano una forte correlazione tra la maggior parte delle coppie di lingue.
Accuratezza delle Metriche nel Classificare i Sistemi di Traduzione
Nel nostro lavoro, abbiamo valutato quanto bene le metriche potessero classificare i sistemi più recenti rispetto a quelli più vecchi. Abbiamo assunto che le traduzioni più recenti siano tipicamente superiori a quelle più vecchie, quindi abbiamo calcolato l'accuratezza in base a quanto spesso le metriche concordassero con il ranking atteso.
Abbiamo esaminato coppie di sistemi sviluppati in un arco di tempo più breve per evitare di sovrastimare l'affidabilità delle metriche. Questo ha permesso di avere un quadro più chiaro di quanto bene le metriche si siano comportate nel distinguere tra la qualità dei diversi sistemi.
I nostri risultati indicano che le metriche addestrate hanno performato meglio nel complesso rispetto alle metriche non addestrate. Tra tutte le metriche, COMET-22 ha avuto la massima accuratezza nel classificare i sistemi di traduzione. Metriche superficiali come chrF hanno fatto meglio di BLEU, con chrF che ha ottenuto la migliore accuratezza per le traduzioni in inglese.
L'Affidabilità delle Metriche Dipende dalla Qualità del Sistema?
Abbiamo investigato l'idea che man mano che i sistemi di traduzione diventano migliori, l'affidabilità delle metriche potrebbe diminuire. Il nostro campione più ampio ci ha permesso di esplorare questa domanda più approfonditamente. Abbiamo guardato a vari scenari per diverse metriche e abbiamo trovato che le tendenze variavano.
Ad esempio, in una coppia di lingue, le metriche addestrate hanno mostrato miglioramenti nel tempo, mentre le metriche superficiali non lo hanno fatto. In molti casi, abbiamo notato una tendenza al ribasso nell'affidabilità in diverse coppie di lingue.
Impatto dei Riferimenti Sintetici
Per valutare ulteriormente come si comportano le metriche, abbiamo generato riferimenti sintetici usando un altro sistema di traduzione automatica. Abbiamo esaminato questi riferimenti sintetici per tre coppie di lingue specifiche e confrontato il loro impatto sulle metriche di valutazione.
I risultati complessivi hanno mostrato che l'uso di riferimenti sintetici ha migliorato l'accuratezza delle metriche nelle coppie di lingue esaminate. Questo suggerisce che i riferimenti artificiali possono essere utili nel valutare la qualità della traduzione.
Conclusione
Attraverso la nostra indagine, abbiamo confermato molte osservazioni precedenti riguardo le metriche di traduzione automatica. Il nostro dataset, che include molteplici coppie di lingue, fornisce prove più solide riguardo la relazione tra qualità della traduzione e affidabilità delle metriche rispetto ai dataset passati.
Invitiamo altri ricercatori a utilizzare il nostro dataset per ulteriori studi sulle metriche di traduzione automatica o per esaminare come la qualità della traduzione cambia nel tempo. La nostra assunzione che i sistemi più recenti siano generalmente migliori di quelli più vecchi è ragionevole, ma potrebbe non essere sempre vera.
Nel lavoro futuro, intendiamo esplorare le prestazioni di nuove metriche di valutazione che utilizzano modelli linguistici di grandi dimensioni. Tuttavia, questo richiederà una notevole quantità di risorse, e non le abbiamo incluse nel nostro studio attuale. Nel complesso, il nostro lavoro aggiunge conoscenze sulle metriche automatiche nella traduzione automatica e fornisce una solida base per ulteriori ricerche in questo settore.
Titolo: Evaluating Automatic Metrics with Incremental Machine Translation Systems
Estratto: We introduce a dataset comprising commercial machine translations, gathered weekly over six years across 12 translation directions. Since human A/B testing is commonly used, we assume commercial systems improve over time, which enables us to evaluate machine translation (MT) metrics based on their preference for more recent translations. Our study not only confirms several prior findings, such as the advantage of neural metrics over non-neural ones, but also explores the debated issue of how MT quality affects metric reliability--an investigation that smaller datasets in previous research could not sufficiently explore. Overall, our research demonstrates the dataset's value as a testbed for metric evaluation. We release our code at https://github.com/gjwubyron/Evo
Autori: Guojun Wu, Shay B. Cohen, Rico Sennrich
Ultimo aggiornamento: 2024-10-03 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.03277
Fonte PDF: https://arxiv.org/pdf/2407.03277
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.