Le paysage en pleine évolution de la traduction littéraire en Hongrie
Analyser le statut des traducteurs littéraires après les changements politiques de 1989 en Hongrie.
― 6 min lire
Table des matières
Cette étude examine comment les gens percevaient la Traduction littéraire pendant les changements politiques en Hongrie autour de 1989. Avant cette période, les traducteurs littéraires avaient une position forte grâce au soutien de l'État. Après le passage à la démocratie, leur statut et leur financement ont chuté de manière significative. Cette recherche combine différentes méthodes pour analyser la perception sociale des traducteurs littéraires dans les deux décennies suivant le changement politique.
Problème de recherche
Le passage de l'ère socialiste à un système démocratique en Hongrie a été crucial pour la culture et la littérature. Pendant de nombreuses années, les traducteurs étaient bien soutenus et reconnus. Tout cela a changé après 1989, menant à un déclin du financement et de la reconnaissance pour les traducteurs. Comprendre comment les gens ont perçu ces changements est important. Les méthodes de recherche traditionnelles manquent souvent de portée et d'objectivité. C'est pourquoi cette étude utilise des techniques modernes basées sur les données pour mélanger des approches qualitatives et quantitatives, visant à fournir des insights plus clairs sur la situation des traducteurs littéraires.
Approche
La recherche utilise un système de codage pour étiqueter les informations provenant de revues littéraires. L'accent est mis sur deux revues : Alföld et Nagyvilág. La revue Alföld, couvrant les années 1980-1999, sert de terrain d'entraînement pour le codage. L'objectif est d'appliquer ce système de codage à une autre revue, Nagyvilág, de la même période.
Collecte de données
Les données proviennent de pages numérisées des deux revues mentionnées. L'analyse se base sur des paragraphes discutant de la traduction. Chaque paragraphe est catégorisé à l'aide de deux types d'étiquettes : les étiquettes de contenu et les étiquettes de contexte. Les étiquettes de contenu aident à identifier des thèmes ou des sujets dans un paragraphe, tandis que les étiquettes de contexte décrivent les circonstances qui ont conduit à la mention de la traduction.
Annotation manuelle
Un ensemble initial de données a été rassemblé à partir d'Alföld, où les paragraphes ont été annotés manuellement avec les étiquettes pertinentes. Ce processus a pris du temps et a impliqué une révision des données plusieurs fois pour garantir l'exactitude. Un système de codage a été développé pour saisir les nuances de la traduction littéraire pendant cette période.
Prétraitement des données
Les pages numérisées de la revue devaient être converties en texte lisible. Cela a été fait à l'aide de la technologie de reconnaissance optique de caractères (OCR). Des problèmes comme les coupures incorrectes de paragraphes et les limites de pages ont dû être résolus pour garantir que les données soient exploitables.
Statistiques des données
L'analyse a rassemblé de grands volumes de texte, avec des millions de mots et des centaines de milliers de paragraphes extraits des deux revues. Cependant, beaucoup de ces paragraphes ne concernaient pas la traduction, ce qui a conduit à un ensemble de données plus ciblé.
Technologie de classification
L'étude a utilisé des techniques avancées d'Apprentissage automatique, en particulier des modèles appelés BERT, pour classifier les données. Ces modèles ont été formés sur l'ensemble de données étiqueté manuellement pour mieux comprendre les complexités des discussions sur la traduction littéraire.
Formation du modèle
Pour s'assurer que le modèle pouvait gérer la nature déséquilibrée de l'ensemble de données, diverses stratégies ont été utilisées. Les techniques comprenaient l'ajustement des paramètres du modèle, la réalisation de plusieurs cycles de formation et la réalisation de vérifications de validation pour améliorer la précision.
Évaluation
Après l'entraînement, la performance du modèle a été évaluée en la comparant à des données étiquetées manuellement. Cela a impliqué d'évaluer dans quelle mesure le modèle pouvait appliquer le système de codage à l'ensemble de données nouveau.
Résultats
Les résultats ont montré que le modèle classait efficacement le contenu lié à la traduction, avec un bon niveau de confiance. Cependant, il a rencontré des difficultés avec les étiquettes de contexte, indiquant un besoin de perfectionnement supplémentaire dans ce domaine.
Échantillonnage importance
En raison de la nature déséquilibrée de l'ensemble de données, une technique d'échantillonnage a été utilisée pour attirer l'attention sur les catégories sous-représentées. Cette méthode visait à fournir une vue plus claire du paysage de la traduction dans les articles de revue.
Trouver des tendances
L'objectif ultime était d'identifier des tendances dans la façon dont la traduction était perçue au fil du temps. L'analyse des données s'est concentrée sur la manière dont certains thèmes ont émergé et évolué pendant la période d'étude.
Réseaux de relations d'étiquettes
Pour visualiser les connexions entre différentes étiquettes, des réseaux de relations ont été créés. Ces réseaux ont aidé à illustrer comment divers thèmes liés à la traduction littéraire interagissaient les uns avec les autres. Les réseaux ont été conçus pour mettre en évidence des changements et des motifs significatifs, facilitant ainsi l'analyse des relations complexes.
Conclusion
Cette étude a combiné une analyse littéraire traditionnelle avec des techniques modernes d'apprentissage automatique pour explorer comment la traduction littéraire était perçue pendant une période significative de l'histoire de la Hongrie. En analysant d'énormes quantités de données provenant de deux revues influentes, la recherche éclaire le statut évolutif des traducteurs littéraires, nous aidant à comprendre le contexte culturel et politique de leur travail. Les résultats soulignent l'importance d'un soutien et d'une reconnaissance continus pour la traduction littéraire dans le paysage en évolution de la littérature hongroise. Les travaux futurs se concentreront sur le perfectionnement des méthodes et l'expansion des ensembles de données pour une analyse plus complète.
Titre: Training BERT Models to Carry Over a Coding System Developed on One Corpus to Another
Résumé: This paper describes how we train BERT models to carry over a coding system developed on the paragraphs of a Hungarian literary journal to another. The aim of the coding system is to track trends in the perception of literary translation around the political transformation in 1989 in Hungary. To evaluate not only task performance but also the consistence of the annotation, moreover, to get better predictions from an ensemble, we use 10-fold crossvalidation. Extensive hyperparameter tuning is used to obtain the best possible results and fair comparisons. To handle label imbalance, we use loss functions and metrics robust to it. Evaluation of the effect of domain shift is carried out by sampling a test set from the target domain. We establish the sample size by estimating the bootstrapped confidence interval via simulations. This way, we show that our models can carry over one annotation system to the target domain. Comparisons are drawn to provide insights such as learning multilabel correlations and confidence penalty improve resistance to domain shift, and domain adaptation on OCR-ed text on another domain improves performance almost to the same extent as that on the corpus under study. See our code at https://codeberg.org/zsamboki/bert-annotator-ensemble.
Auteurs: Dalma Galambos, Pál Zsámboki
Dernière mise à jour: 2024-03-26 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.03742
Source PDF: https://arxiv.org/pdf/2308.03742
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.