Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Apprentissage automatique

Personnalisation de la génération de texte mixte

Un nouveau modèle améliore le texte mixte de code en fonction des préférences des utilisateurs.

― 7 min lire


Développement de modèleDéveloppement de modèlede texte mélangé en codepersonnalisés en code-mix.Un modèle innovant génère des textes
Table des matières

Dans le monde d'aujourd'hui, le mélange de codes est une pratique courante, surtout dans des sociétés multiculturelles comme l'Inde. Ce terme désigne le mélange de deux langues ou plus dans une seule conversation ou un texte. Par exemple, on pourrait dire : "J'ai besoin d'acheter des légumes", en utilisant ensemble l'anglais et l'hindi. Ce n'est pas juste décontracté ; ça montre l'environnement linguistique riche dans lequel les gens vivent.

Sur des plateformes de réseaux sociaux comme Twitter et Facebook, ce langage mélangé est partout. Les utilisateurs passent souvent d'une langue à l'autre librement, utilisant aussi différents scripts. Par exemple, quelqu'un pourrait écrire en script romain pour l'anglais et en devanagari pour l'hindi dans la même phrase. Ce phénomène conduit aussi à l'émergence du mélange de scripts.

Le défi du mélange de codes

Même si le mélange de codes est répandu, les outils existants pour générer des textes ne tiennent pas compte du contexte spécifique d'un utilisateur, comme son statut socio-économique ou ses préférences personnelles. La plupart des modèles actuels traitent tous les utilisateurs de la même manière, ignorant les différences individuelles importantes.

Étant donné que le mélange de codes dépend fortement du contexte personnel, il peut être difficile pour les modèles d'apprentissage automatique de générer des textes qui sonnent naturel et qui correspondent au style unique d'un utilisateur. C'est un grand écart dans la technologie actuelle.

Ce que l'on essaie de faire

Pour résoudre ce problème, nous développons un nouveau modèle qui prend en compte la personnalité de l'utilisateur lors de la génération de textes mélangés. Notre objectif est de créer un système capable de produire des textes mélangés qui reflètent le style de conversation d'un individu, s'inspirant de leur utilisation passée des langues.

Ce modèle est basé sur une architecture bien connue appelée Transformer. Le Transformer nous aide à comprendre comment les différentes langues se mêlent et nous permet de générer un texte qui semble plus naturel pour chaque utilisateur.

Comment notre modèle fonctionne

Au cœur de notre modèle se trouve un mécanisme génératif sensible à la personnalité. D'abord, le modèle prend en compte les textes historiques d'un utilisateur pour construire une compréhension personnalisée de la façon dont ils mélangent les langues. Cette compréhension est ensuite utilisée pour guider le processus de génération de texte.

Le modèle se compose de deux parties principales : un Encodeur et un Décodeur. L'encodeur traite les textes passés de l'utilisateur et comprend le contexte, tandis que le décodeur génère de nouveaux textes basés sur cette compréhension.

Encodeur de personnalité

La première étape est de créer un encodeur de personnalité. Ce composant se concentre sur la façon dont l'utilisateur utilise la langue et ses préférences au fil du temps. Il capture l'essence de la manière dont l'utilisateur communique, aidant le système à générer des textes qui semblent provenir de cette personne.

Le décodeur

Une fois que la personnalité de l'utilisateur est comprise, le décodeur prend le relais. Il génère des textes mélangés en utilisant le contexte fourni par l'encodeur. Le décodeur suit les motifs et préférences identifiés dans l'utilisation passée de la langue par l'utilisateur pour créer de nouveaux textes qui semblent authentiques.

Module d'alignement

Pour s'assurer que les textes générés sont cohérents, nous incluons un module d'alignement. Cela garantit que le texte généré s'aligne bien avec les motifs établis par l'utilisateur, améliorant la qualité globale et facilitant la lecture.

Évaluation du modèle

Une fois le modèle développé, il est crucial de tester ses performances. Nous évaluons notre modèle de deux manières : évaluations intrinsèques et extrinsèques.

Évaluation intrinsèque

Dans l'évaluation intrinsèque, nous nous concentrons sur la mesure de la capacité du modèle à comprendre la langue qu'il génère. Nous utilisons une mesure standard appelée perplexité, qui nous indique à quel point le modèle prédit avec précision le mot suivant dans une phrase. Un score de perplexité plus bas indique que le modèle fait du bon travail.

Évaluation extrinsèque

L'évaluation extrinsèque examine à quel point les textes générés répondent aux attentes et préférences des utilisateurs. Ici, nous concevons de nouvelles métriques qui prennent en compte les motifs linguistiques spécifiques de chaque utilisateur. Cela nous aide à comprendre à quel point les textes générés s'alignent avec la façon habituelle de parler et d'écrire de l'utilisateur.

Collecte de données

Pour enseigner notre modèle, nous avions besoin d'une multitude de textes mélangés. Nous avons collecté des données sur des plateformes populaires comme Twitter et YouTube. Ce processus impliquait de rassembler une énorme quantité de tweets et de commentaires en hindi et en anglais, en se concentrant spécifiquement sur les utilisateurs qui mélangent fréquemment les deux langues.

L'importance de la personnalité utilisateur

La personnalité de l'utilisateur est cruciale pour générer un texte significatif. Chaque personne a des préférences linguistiques uniques façonnées par son parcours, ses expériences et ses cercles sociaux. En se concentrant sur ces différences individuelles, notre modèle vise à créer une expérience plus personnalisée.

Par exemple, si un utilisateur préfère souvent utiliser plus d'hindi dans ses tweets, le modèle devrait générer des résultats qui reflètent cette tendance. D'un autre côté, si un utilisateur a tendance à rester en anglais, le texte généré s'alignera en conséquence avec son style.

Évaluation humaine

Enfin, nous réalisons des évaluations humaines pour voir à quel point notre modèle fonctionne dans des scénarios réels. Nous demandons à des locuteurs natifs d'hindi et d'anglais d'évaluer la qualité des textes générés. Ils évaluent les textes selon deux critères principaux : la Cohérence sémantique et la qualité linguistique.

La cohérence sémantique fait référence à la signification du texte, tandis que la qualité linguistique examine la correction de la grammaire et de la structure. Les retours des évaluateurs humains sont cruciaux car ils nous donnent une vision plus claire de la performance du modèle du point de vue de l'utilisateur.

Conclusion

Le travail que nous faisons souligne l'importance de la personnalisation dans la génération de textes, surtout dans des scénarios de mélange de codes. En tenant compte de la personnalité de l'utilisateur lors de la génération de texte, nous espérons créer une expérience plus engageante et réaliste pour les utilisateurs.

Cette nouvelle approche comble un vide dans la technologie existante qui a largement ignoré les pratiques nuancées du mélange de langues. À mesure que notre modèle continue d'évoluer, nous visons à améliorer sa capacité à générer des textes mélangés significatifs et contextuellement pertinents, améliorant ainsi les interactions sur les plateformes numériques.

Comprendre les dynamiques du mélange de codes et intégrer les préférences individuelles des utilisateurs ouvre la voie à des avancées dans les agents conversationnels et d'autres applications basées sur le langage. Cela pourrait conduire à des outils de communication plus efficaces qui résonnent mieux avec les utilisateurs, reflétant leurs identités linguistiques uniques.

Source originale

Titre: Persona-aware Generative Model for Code-mixed Language

Résumé: Code-mixing and script-mixing are prevalent across online social networks and multilingual societies. However, a user's preference toward code-mixing depends on the socioeconomic status, demographics of the user, and the local context, which existing generative models mostly ignore while generating code-mixed texts. In this work, we make a pioneering attempt to develop a persona-aware generative model to generate texts resembling real-life code-mixed texts of individuals. We propose a Persona-aware Generative Model for Code-mixed Generation, PARADOX, a novel Transformer-based encoder-decoder model that encodes an utterance conditioned on a user's persona and generates code-mixed texts without monolingual reference data. We propose an alignment module that re-calibrates the generated sequence to resemble real-life code-mixed texts. PARADOX generates code-mixed texts that are semantically more meaningful and linguistically more valid. To evaluate the personification capabilities of PARADOX, we propose four new metrics -- CM BLEU, CM Rouge-1, CM Rouge-L and CM KS. On average, PARADOX achieves 1.6 points better CM BLEU, 47% better perplexity and 32% better semantic coherence than the non-persona-based counterparts.

Auteurs: Ayan Sengupta, Md Shad Akhtar, Tanmoy Chakraborty

Dernière mise à jour: 2024-10-19 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.02915

Source PDF: https://arxiv.org/pdf/2309.02915

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires