Sfide della traduzione automatica nelle metafore
Esaminando le difficoltà di tradurre il linguaggio metaforico nella traduzione automatica.
― 6 leggere min
Indice
- Che cos'è una Metafora?
- Sfide nella traduzione delle metafore
- I nostri contributi
- Valutare il linguaggio metaforico
- Creazione del dataset
- Processo di annotazione
- Metriche automatiche per la valutazione della traduzione
- Risultati sulla traduzione metaforica vs. letterale
- Il ruolo della tipologia linguistica
- Conclusione e lavoro futuro
- Fonte originale
- Link di riferimento
La Traduzione automatica (MT) ha fatto passi da gigante grazie a modelli computerizzati avanzati. La gente spesso confronta queste traduzioni con quelle fatte da esseri umani o dà loro dei punteggi basati su cosa dicono esperti umani. La maggior parte dei metodi attuali per controllare la Qualità delle traduzioni si concentra su quanto siano fluide e accurate. Tuttavia, molti non guardano attentamente a come gestiscono espressioni figurative, come le metafore.
In questo articolo, approfondiremo come la MT gestisce il linguaggio metaforico. Discuteremo i problemi che sorgono quando si traducono le metafore e suggeriremo modi per valutare meglio la qualità delle traduzioni quando si tratta di questi tipi di espressioni.
Metafora?
Che cos'è unaLe metafore sono comuni nel linguaggio di tutti i giorni. Ci aiutano a comunicare idee complesse in modi vividi. In linguistica, una metafora è quando una cosa viene descritta in termini di un'altra. Ad esempio, nella frase "Il grido ha squarciato la notte," "squarciato" non significa letteralmente tagliare, ma suggerisce un suono acuto che rompe la calma della notte.
Una grande parte del nostro linguaggio quotidiano include termini metaforici. Gli studi mostrano che le metafore aiutano a plasmare i nostri pensieri e decisioni. Spesso funzionano attraverso le lingue, il che significa che idee metaforiche simili possono apparire indipendentemente dalla lingua usata. Ad esempio, in inglese, la parola "pierce" può essere abbinata alla parola cinese "穿透," che porta anche un significato metaforico legato al suono.
Sfide nella traduzione delle metafore
Tradurre le metafore può essere difficile perché le lingue diverse hanno modi diversi di esprimere la stessa idea. Per esempio, in cinese, una persona ubriaca potrebbe essere paragonata a qualcuno che è crollato nel fango. In inglese, quello stesso stato potrebbe essere descritto come vedere elefanti rosa. Tali differenze possono causare problemi significativi quando si traducono espressioni metaforiche.
I linguisti hanno prestato maggiore attenzione alle metafore e alla loro importanza in vari compiti, come la traduzione, la scrittura creativa e la conversazione. Tuttavia, la traduzione delle metafore viene spesso trascurata nella MT perché non ci sono abbastanza risorse o dati disponibili per un compito del genere.
Per colmare questa lacuna, suggeriamo un metodo chiamato MMTE, che sta per Metaphorical Machine Translation Evaluation. Questo metodo mira a ricercare le sfide coinvolte nella traduzione del linguaggio metaforico.
I nostri contributi
Corpus: Abbiamo creato il primo corpus di Valutazione delle traduzioni metaforiche multilingue che si concentra su inglese e cinese/italiano.
Framework di valutazione umana: Abbiamo sviluppato un nuovo framework per la valutazione umana che esamina quanto bene vengono fatte le traduzioni metaforiche.
Fondamenti teorici: Delineiamo le difficoltà nella traduzione delle metafore. Il nostro framework tiene conto di diverse prospettive e lingue.
Valutare il linguaggio metaforico
Le metafore giocano un ruolo chiave in come esprimiamo emozioni e comprendiamo idee. Il nostro obiettivo è migliorare come valutiamo la qualità delle traduzioni quando sono coinvolte metafore. Proponiamo un insieme di nuove metriche per questo scopo, concentrandoci specificamente sul linguaggio metaforico.
La valutazione include quattro aree chiave:
Equivalenza metaforica: Quanto bene la metafora tradotta corrisponde all'originale?
Emozione: La traduzione trasmette lo stesso peso emotivo della metafora originale?
Autenticità: La metafora tradotta suona naturale nella lingua di destinazione?
Qualità: Com'è fatta la traduzione nel complesso?
Ci proponiamo di stabilire uno standard per valutare quanto efficacemente le metafore vengono tradotte.
Creazione del dataset
Per costruire il nostro dataset, abbiamo raccolto frasi che contengono metafore e le loro traduzioni. Abbiamo usato il dataset MOH, che include una selezione di frasi metaforiche e letterali. Il nostro dataset contiene traduzioni da modelli MT popolari, tra cui Google Cloud Translation e GPT-4.
Dopo aver raccolto le nostre traduzioni, abbiamo assunto linguisti madrelingua delle lingue di destinazione per rivedere e annotare queste traduzioni. Si sono concentrati sui quattro criteri di valutazione, permettendoci di creare un dataset completo di traduzioni metaforiche e letterali.
Processo di annotazione
Il nostro processo di annotazione prevede tre fasi principali. Prima, confrontiamo le frasi di origine con le traduzioni. Poi, valutiamo le traduzioni in base ai quattro criteri menzionati in precedenza. Infine, traduttori professionisti verificano le annotazioni per garantire l'accuratezza.
Attraverso questo processo, classifichiamo le traduzioni in tre tipi di equivalenza: equivalenza totale, equivalenza parziale e non equivalenza. Identifichiamo anche errori, come incomprensioni o errori evidenti nella traduzione.
Valutiamo poi l'emozione confrontando quanto emozione viene espressa nella metafora originale e quanto viene catturato nella traduzione. L'obiettivo è mantenere la sfumatura emotiva attraverso il processo di traduzione.
Metriche automatiche per la valutazione della traduzione
Insieme alle valutazioni umane, introduciamo diverse metriche automatiche per valutare la qualità della traduzione. Queste metriche includono:
BLEU/ROUGE: Questi sono punteggi che misurano quanto il testo tradotto sia simile ai riferimenti editati da umani.
BERTScore: Questa metrica valuta le traduzioni senza bisogno di un riferimento esatto ed è utile in contesti cross-linguali.
GPT Score: Utilizziamo il modello GPT-4 per rivedere le traduzioni e fornire punteggi basati sugli stessi standard degli annotatori umani.
Facendo un'analisi approfondita, confrontiamo quanto bene diversi modelli MT si comportano nella traduzione di espressioni metaforiche rispetto a quelle letterali.
Risultati sulla traduzione metaforica vs. letterale
I nostri risultati suggeriscono che tradurre espressioni metaforiche è significativamente più difficile rispetto a tradurre espressioni letterali. Circa il 20% delle espressioni metaforiche è stato tradotto male, con molte che non riescono a trasmettere il significato metaforico inteso.
In entrambe le traduzioni inglese-cinese e inglese-italiano, abbiamo notato che le traduzioni di espressioni metaforiche hanno ricevuto costantemente punteggi più bassi rispetto alle traduzioni letterali. Tuttavia, quando le metafore sono state tradotte con precisione, i punteggi risultanti sono migliorati significativamente. Questo indica che una traduzione adeguata delle metafore può portare a risultati soddisfacenti.
Il ruolo della tipologia linguistica
Un altro risultato interessante è che la tipologia, o struttura, delle lingue gioca un ruolo nella difficoltà della traduzione. Ad esempio, la coppia di lingue inglese-italiano mostra generalmente performance migliori perché condividono più somiglianze strutturali rispetto all'inglese-cinese.
Tuttavia, questo non vale sempre per tutti i sistemi MT. Per esempio, alcuni strumenti di traduzione commerciali funzionano meglio nella traduzione dall'inglese al cinese rispetto a quella dall'inglese all'italiano. Crediamo che la dimensione dei dataset disponibili possa avere un impatto maggiore sulla qualità della traduzione rispetto alla tipologia linguistica da sola.
Conclusione e lavoro futuro
MMTE rappresenta un passo significativo nella comprensione di come le espressioni metaforiche vengano tradotte attraverso diverse lingue. I nostri risultati hanno implicazioni pratiche per migliorare la qualità della traduzione automatica.
Riconosciamo anche diverse limitazioni nel nostro lavoro. Ad esempio, ci siamo principalmente concentrati su sistemi di traduzione commerciali all'avanguardia piuttosto che esplorare sistemi meno popolari o nuovi. Inoltre, non abbiamo approfondito la tipologia linguistica, che rimane un'area affascinante per la ricerca futura.
Il nostro obiettivo finale è contribuire al campo della linguistica computazionale migliorando la qualità e l'affidabilità delle traduzioni, specialmente quando si tratta di aree sottili del linguaggio figurato. Condividendo i nostri metodi e risultati in modo aperto, speriamo di incoraggiare ulteriori ricerche e innovazioni in questo importante settore.
Titolo: MMTE: Corpus and Metrics for Evaluating Machine Translation Quality of Metaphorical Language
Estratto: Machine Translation (MT) has developed rapidly since the release of Large Language Models and current MT evaluation is performed through comparison with reference human translations or by predicting quality scores from human-labeled data. However, these mainstream evaluation methods mainly focus on fluency and factual reliability, whilst paying little attention to figurative quality. In this paper, we investigate the figurative quality of MT and propose a set of human evaluation metrics focused on the translation of figurative language. We additionally present a multilingual parallel metaphor corpus generated by post-editing. Our evaluation protocol is designed to estimate four aspects of MT: Metaphorical Equivalence, Emotion, Authenticity, and Quality. In doing so, we observe that translations of figurative expressions display different traits from literal ones.
Autori: Shun Wang, Ge Zhang, Han Wu, Tyler Loakman, Wenhao Huang, Chenghua Lin
Ultimo aggiornamento: 2024-11-08 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2406.13698
Fonte PDF: https://arxiv.org/pdf/2406.13698
Licenza: https://creativecommons.org/licenses/by-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.