Changements dans les mots espagnols du 19e siècle
Examiner l'évolution des significations des mots espagnols influencées par les changements sociaux.
― 6 min lire
Table des matières
- Aperçu de la Détection de Changement Sémantique
- Embeddings de Mots et Leur Rôle
- Création d'un Corpus Espagnol du 19ème Siècle
- Nettoyage et Préparation du Jeu de Données
- Le Processus de DCS
- Recherche des Occurrences de Mots
- Utilisation des Embeddings Contextuels pour l'Analyse
- Entraînement des Modèles Linguistiques
- Évaluation des Modèles
- Analyse des Changements Sémantiques
- Résultats de l'Analyse
- Étude de Cas : "Mujeres"
- Autres Observations Notables
- Comprendre le Changement Linguistique
- Implications pour les Recherches Futures
- Conclusion
- Source originale
- Liens de référence
Cet article examine comment les significations des mots ont évolué en espagnol au cours du 19ème siècle, surtout en Amérique latine. On utilise des techniques de l'informatique et des études linguistiques pour ça. Notre but est de comprendre comment les mots ont changé de sens à cause des développements sociaux et historiques.
Aperçu de la Détection de Changement Sémantique
La Détection de Changement Sémantique (DCS) est cruciale pour comprendre comment les langues évoluent dans le temps. Avant, les chercheurs analysaient les textes à la main, mais maintenant, les nouvelles techniques informatiques permettent une analyse plus rapide et plus complète. Ce changement de méthode aide les chercheurs à déceler des motifs qui relient les évolutions linguistiques aux changements culturels et sociaux.
Embeddings de Mots et Leur Rôle
En 2013, des chercheurs ont introduit des embeddings de mots statiques, qui sont des représentations fixes des mots selon leur contexte. Mais ces embeddings ne capturent pas les mots à multiples significations. Pour y remédier, les chercheurs ont commencé à utiliser des embeddings contextuels qui prennent en compte les mots qui les entourent. Ça permet de mieux comprendre comment les significations peuvent évoluer.
Création d'un Corpus Espagnol du 19ème Siècle
On a voulu créer une base de données de textes espagnols du 19ème siècle, couvrant les années 1800 à 1914. Ça impliquait de rassembler des matériaux de diverses sources, y compris des livres et des journaux. On a filtré les textes pour enlever ceux qui n'étaient pas appropriés pour notre analyse. Comme ça, notre jeu de données était pertinent pour notre étude sur les changements linguistiques.
Nettoyage et Préparation du Jeu de Données
Une fois nos textes collectés, on a dû les nettoyer. Ça comprenait l'élimination des doublons et des lignes vides, ainsi que le filtrage des entrées qui ne respectaient pas nos normes de qualité. On a aussi découpé les plus longs textes en sections plus petites, en s'assurant que chaque partie gardait son sens d'origine. Comme ça, les données pouvaient être efficacement analysées avec nos Modèles.
Le Processus de DCS
Notre processus de DCS impliquait plusieurs étapes. D'abord, on cherchait un mot donné dans nos jeux de données. On a utilisé un modèle linguistique de type BERT pour rassembler l'utilisation du mot dans différents contextes. Ensuite, on regroupait ces usages selon leurs significations, ce qui nous aidait à voir comment les sens ont évolué.
Recherche des Occurrences de Mots
Trouver où un mot apparaît dans nos textes peut être compliqué, vu les nombreuses manières dont les mots peuvent changer de forme. On a développé une méthode qui nous permet de rassembler toutes les versions possibles d'un mot, s'assurant de ne pas rater des usages à cause de variations d'orthographe ou de forme.
Utilisation des Embeddings Contextuels pour l'Analyse
Pour notre tâche de DCS, on s'est appuyé sur des embeddings contextuels créés par des modèles linguistiques spécifiques. Ces embeddings sont super utiles parce qu'ils montrent comment le sens d'un mot change selon le contexte dans lequel il est utilisé. Par exemple, le mot "sentimiento" peut signifier différentes choses dans différents contextes, et nos modèles peuvent capturer ces nuances.
Entraînement des Modèles Linguistiques
Pour être sûrs que nos modèles puissent gérer l'espagnol du 19ème siècle, on les a entraînés avec notre corpus spécifique. Ça impliquait de prédire des mots masqués dans des phrases pour aider les modèles à apprendre à comprendre le style et la structure uniques de la langue à cette époque.
Évaluation des Modèles
Pour trouver le meilleur modèle pour notre analyse, on a fait des tests avec un jeu de données de référence. Cette évaluation était basée sur la capacité des modèles à détecter les changements de sens au fil du temps. Finalement, le modèle qui a le mieux performé a été choisi pour une analyse plus approfondie.
Analyse des Changements Sémantiques
On a étudié un total de 255 mots cibles, en analysant comment leurs significations ont pu changer entre le 19ème siècle et l'espagnol moderne. En comparant les regroupements d'embeddings de mots, on a pu identifier quels sens avaient été perdus, gagnés, ou restés stables dans le temps.
Résultats de l'Analyse
À travers notre analyse, on a découvert que certains mots avaient des significations très différentes maintenant par rapport à leur usage historique. Par exemple, le mot "mujeres" (femmes) se réfère à un groupe spécifique de femmes auparavant, mais maintenant inclut plus généralement toutes les femmes. Ce changement reflète des évolutions sociales plus larges liées au genre.
Étude de Cas : "Mujeres"
Le terme "mujeres" illustre comment la compréhension des rôles de genre a évolué. Au 19ème siècle, il était courant de voir des formes masculines utilisées dans le langage comme standard, souvent en excluant la perspective féminine. Le terme moderne est devenu plus inclusif, reflétant un changement d'attitude sociétale envers le genre.
Autres Observations Notables
On a aussi découvert que certains mots, comme "sentimiento", ont perdu des significations historiques qui représentaient autrefois l'expression morale ou artistique. De nos jours, il est principalement associé à des sentiments personnels. De plus, certains mots comme "sublime" ne sont plus couramment utilisés, indiquant des changements dans la manière dont certains concepts sont discutés.
Comprendre le Changement Linguistique
Les façons dont la langue évolue sont étroitement liées aux contextes culturels et sociaux dans lesquels elle existe. Nos résultats suggèrent que les significations des mots ne sont pas juste des changements linguistiques mais reflètent des évolutions sociétales plus larges, y compris des facteurs politiques, culturels et sociaux.
Implications pour les Recherches Futures
Cette recherche ouvre plusieurs possibilités pour des études futures en linguistique historique. Les méthodes que nous avons développées peuvent être appliquées à d'autres langues et périodes, aidant à révéler des insights plus profonds sur comment la langue et la culture s'influencent mutuellement.
Conclusion
Cette étude donne un aperçu clair de comment les mots espagnols du 19ème siècle ont changé de sens. En utilisant des méthodes computationnelles modernes, on peut mieux comprendre les liens entre la langue et la société. Ce travail n'est que le point de départ pour explorer les dynamiques fascinantes du changement linguistique au fil du temps.
Titre: Historical Ink: Semantic Shift Detection for 19th Century Spanish
Résumé: This paper explores the evolution of word meanings in 19th-century Spanish texts, with an emphasis on Latin American Spanish, using computational linguistics techniques. It addresses the Semantic Shift Detection (SSD) task, which is crucial for understanding linguistic evolution, particularly in historical contexts. The study focuses on analyzing a set of Spanish target words. To achieve this, a 19th-century Spanish corpus is constructed, and a customizable pipeline for SSD tasks is developed. This pipeline helps find the senses of a word and measure their semantic change between two corpora using fine-tuned BERT-like models with old Spanish texts for both Latin American and general Spanish cases. The results provide valuable insights into the cultural and societal shifts reflected in language changes over time.
Auteurs: Tony Montes, Laura Manrique-Gómez, Rubén Manrique
Dernière mise à jour: 2024-07-18 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.12852
Source PDF: https://arxiv.org/pdf/2407.12852
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/historicalink/SSD-Old-Spanish
- https://huggingface.co/datasets/josecannete/large_spanish_corpus
- https://www.gutenberg.org/browse/languages/es
- https://huggingface.co/datasets/TheBritishLibrary/blbooks
- https://huggingface.co/datasets/Flaglab/latam-xix
- https://huggingface.co/datasets/Flaglab/spanish-corpus-xix
- https://huggingface.co/dccuchile/bert-base-spanish-wwm-cased
- https://huggingface.co/google-bert/bert-base-multilingual-cased
- https://huggingface.co/dccuchile/albert-base-spanish
- https://huggingface.co/Flaglab/beto-cased-finetuned-xix-latam
- https://colab.research.google.com/drive/1eaULQocxyuCNX0ftBvDJwe8nfpEi5s6i