Modèles de langue personnalisés pour le dialogue de films et de séries télé
Utiliser des profils de personnages pour améliorer les prédictions des modèles de langage dans les médias scénarisés.
― 10 min lire
Table des matières
Les modèles de langage qui réagissent à des facteurs externes capturent mieux la façon dont les gens parlent selon leurs traits ou situations uniques. Cependant, obtenir et utiliser de telles descriptions peut être compliqué. Ce travail montre comment utiliser des descriptions détaillées de Personnages et de films pour personnaliser plus facilement les modèles de langage. Le meilleur modèle que nous avons testé a pu réduire considérablement la confusion dans les prédictions par rapport à un modèle classique qui correspondait à ses paramètres. Notre approche fonctionne aussi bien que le fine-tuning de modèles spécifiques à chaque intervenant quand on a des données comme des conversations passées. Elle performe aussi bien même sans ces données, en s'appuyant sur un mélange de détails démographiques trouvés dans nos Métadonnées.
On a trouvé des résultats cohérents dans deux collections de Dialogues, dont une nouvelle qu'on a créée qui s'appelle Cornell-rich. Ce nouveau jeu de données inclut des descriptions manuelles détaillées pour les personnages qui parlent dans une plus grande collection de dialogues de films. Il présente des éléments comme des citations clés et des détails sur les personnages, ainsi que six caractéristiques de métadonnées automatiquement recueillies pour plusieurs films inclus.
L'étude montre que la langue parlée n'est pas la même pour tout le monde. Les méthodes traditionnelles pour créer des modèles de langage ignorent souvent le contexte et traitent tout le monde de la même manière. Cela peut conduire à des prédictions incorrectes ou nuisibles, car les modèles supposent le scénario le plus typique. Au lieu de ça, la Personnalisation peut améliorer la génération de langage, permettant une meilleure interprétation et clarté du texte d'entrée.
Les facteurs démographiques se sont révélés utiles pour améliorer la performance dans diverses tâches linguistiques, comme la traduction et la génération de texte. Ces facteurs peuvent influencer le langage à la fois grammaticalement, où la structure peut changer selon le genre par exemple, et comportementalement, ce qui concerne la manière dont le langage est utilisé par différents groupes. Cependant, les méthodes actuelles se concentrent souvent uniquement sur les aspects grammaticaux.
Ce travail se concentre sur la personnalisation des modèles de langage pour des personnages dans des dialogues de TV et de film scénarisés. La langue dans ces formes de média varie énormément ; les écrivains créent des personnages qui reflètent des façons spécifiques de parler de certains groupes. Les productions liées à des décennies ou genres particuliers capturent les nuances de l'utilisation du langage dans ces contextes. On montre comment les détails sur les intervenants et la production peuvent aider à créer des modèles qui comprennent mieux le langage de personnages ou d'émissions spécifiques qu'un modèle général.
Il y a un défi unique dans ce domaine : les modèles doivent aussi bien fonctionner lorsqu'ils rencontrent du contenu nouveau sans dialogues passés sur lesquels se baser, ce qu'on appelle le problème du démarrage à froid. Cette situation survient lorsqu'il n'y a pas assez de matériel pour caractériser de nouveaux intervenants. Les modèles qui n'apprennent qu'à partir de dialogues précédents ne fonctionneront pas bien ici. On préconise une approche basée sur le contexte, en estimant spécifiquement combien certains mots ou phrases sont probables en se basant sur des personnages ou productions similaires.
Des annotations de métadonnées riches peuvent aider à améliorer les modèles de langage et à éviter les problèmes de droits d'auteur qui surviennent souvent avec les données de production. Notre jeu de données inclut des informations identifiables comme des noms de personnages et des titres de films, ce qui nous permet de rassembler un ensemble détaillé de métadonnées pour notre corpus. Ça signifie qu'on pourrait faire des tests en utilisant beaucoup de variables de métadonnées différentes à la fois, contrairement aux études antérieures qui opéraient à une échelle plus petite avec moins d'attributs.
Les questions de recherche clés auxquelles nous répondons sont :
- Comment des profils de personnages détaillés peuvent-ils aider à modéliser comment les personnages parlent ?
- Comment peut-on adapter un modèle de langage pour un personnage spécifique en n'utilisant que des données de personnages avec des profils similaires ?
- Quelles métadonnées de caractère sont les plus efficaces pour la personnalisation ?
On introduit aussi le jeu de données Cornell-rich, qui propose des annotations étendues sur les personnages et les films pour une collection de dialogues de films, ainsi qu'une métrique d'évaluation unique pour les modèles de langage personnalisés.
Travaux Connexes
Les efforts pour personnaliser les modèles de langage peuvent généralement être classés en fonction de la quantité de données disponibles pour un nouveau locuteur : supervision complète quand il y a assez de données d'entraînement, situations à peu d'exemples où seules quelques données sont disponibles, et scénarios à zéro exemple où aucune donnée antérieure n'est accessible. La supervision complète utilise généralement un type d'incorporation utilisateur. Les méthodes à peu d'exemples utilisent diverses techniques de personnalisation comme l'adaptation des modèles de langage en fonction des échantillons utilisateurs. Les méthodes à zéro exemple s'appuient souvent sur des métadonnées ou des informations de fond sur de nouveaux intervenants pour dériver leurs modèles de langage.
Notre travail s'aligne davantage sur les approches à zéro exemple, car nous utilisons des métadonnées riches pour modéliser des personnages d'écran. Contrairement à certaines études qui utilisent seulement des métadonnées catégoriques simples, nous tirons parti d'un éventail beaucoup plus large de types d'annotations. Il y a eu des efforts passés pour incorporer le contexte dans les modèles de langage avec des modèles pré-entraînés, mais notre focus est sur la personnalisation des personnages et des films.
Dataset Cornell-rich
Cornell-rich est une collection avec des annotations étendues sur les personnages et les films. Cela inclut des variables de métadonnées distinctes liées à un corpus de dialogues, montrant comment notre nouveau jeu de données ajoute de la profondeur à la collection de dialogues originale. Chaque personnage a un profil qui capture une gamme de caractéristiques, y compris des modèles de discours.
Les annotations de personnages dans Cornell-rich peuvent être associées au corpus de dialogue original, permettant d'identifier comment différents personnages interagissent. Cela nous permet d'examiner leurs énoncés, qui éclairent leurs traits de personnalité et styles de discours.
Le processus de création de ce jeu de données a été réalisé par des experts familiers avec les domaines du doublage et du sous-titrage. Ils ont généré une liste de personnages avec leurs films respectifs et le nombre de dialogues. Les annotateurs ont ensuite collecté divers types d'informations, se concentrant sur des attributs qui pourraient indiquer comment un personnage parle.
En utilisant des ressources en ligne disponibles au public, les annotateurs ont compilé des détails sur les personnages concernant des aspects tels que l'âge, la profession et des citations distinctives. Ils ont parfois rencontré des difficultés pour trouver des détails spécifiques, mais leur expertise leur a permis de rassembler des données complètes.
Mise en Place Expérimentale
Le cadre que nous avons utilisé est un modèle standard d'encodeur-décodeur, qui prend les métadonnées comme entrée plutôt que du texte simple. Cela nous permet de traiter les deux types d'entrée de manière cohérente. La pré-formation du modèle s'est avérée essentielle pour nos expériences ; nous l'avons d'abord entraîné sur un corpus de dialogues plus important, puis adapté pour les tâches spécifiques à réaliser.
Nous avons utilisé un ensemble de références pour évaluer la performance de notre modèle par rapport aux méthodes traditionnelles. Nos principaux tests se sont concentrés sur la manière dont notre modèle personnalisé améliorait la qualité des prédictions par rapport aux approches standard. Chaque nouveau modèle a été entraîné séparément, garantissant que tout gain de performance puisse être attribué à l'architecture et à la configuration.
Résultats
Dans nos expériences, nous avons cherché à comprendre à quel point les profils des intervenants pouvaient être efficaces pour améliorer les modèles de langage. En incluant des profils d'intervenants, nous avons réduit significativement la confusion dans les prédictions de notre modèle de langage. Nous avons également testé si cette approche basée sur le contexte fonctionnait mieux que le simple fine-tuning sur des données de nouveaux intervenants.
Lors de tests supplémentaires, nous avons évalué à quel point notre modèle pouvait s'adapter à des intervenants entièrement nouveaux qu'il n'avait pas rencontrés durant l'entraînement. Le modèle a tout de même atteint un niveau de performance raisonnable même dans des scénarios avec de nouveaux personnages, bien que légèrement moins efficace que lorsqu'il avait déjà vu les intervenants auparavant.
Enfin, nous avons effectué une analyse coûts-bénéfices pour comprendre quels attributs offraient le meilleur rapport qualité-prix pour aider aux efforts de personnalisation. Des attributs comme les descriptions de personnages, les professions et les citations ont apporté les améliorations les plus significatives à nos modèles, tandis que d'autres comme l'âge et la religion étaient moins utiles. Cela suggère que le type de métadonnées collectées peut influencer profondément l'efficacité de la personnalisation.
Conclusions
En résumé, ce travail a montré les bénéfices des annotations de métadonnées riches pour personnaliser les modèles de langage dans les dialogues de films. En utilisant des profils de personnages détaillés, on peut créer des modèles de langage qui répondent beaucoup mieux au contexte et aux traits des personnages que les approches classiques. On a démontré que l'utilisation de telles métadonnées peut conduire à des améliorations significatives de la qualité des prédictions, même dans des cas où les données disponibles sont limitées.
L'étude souligne l'importance de métadonnées diverses dans le développement de modèles de langage personnalisés efficaces, révélant des aperçus clés sur la façon dont différents types de données influencent la performance des modèles. En conséquence, cette recherche ouvre de nouvelles avenues pour affiner les tâches de génération de langage dans les domaines du film et de la télévision, améliorant finalement l'authenticité des interactions des personnages dans les médias scénarisés.
Titre: Reference-less Analysis of Context Specificity in Translation with Personalised Language Models
Résumé: Sensitising language models (LMs) to external context helps them to more effectively capture the speaking patterns of individuals with specific characteristics or in particular environments. This work investigates to what extent rich character and film annotations can be leveraged to personalise LMs in a scalable manner. We then explore the use of such models in evaluating context specificity in machine translation. We build LMs which leverage rich contextual information to reduce perplexity by up to 6.5% compared to a non-contextual model, and generalise well to a scenario with no speaker-specific data, relying on combinations of demographic characteristics expressed via metadata. Our findings are consistent across two corpora, one of which (Cornell-rich) is also a contribution of this paper. We then use our personalised LMs to measure the co-occurrence of extra-textual context and translation hypotheses in a machine translation setting. Our results suggest that the degree to which professional translations in our domain are context-specific can be preserved to a better extent by a contextual machine translation model than a non-contextual model, which is also reflected in the contextual model's superior reference-based scores.
Auteurs: Sebastian Vincent, Alice Dowek, Rowanne Sumner, Charlotte Blundell, Emily Preston, Chris Bayliss, Chris Oakley, Carolina Scarton
Dernière mise à jour: 2024-03-05 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2303.16618
Source PDF: https://arxiv.org/pdf/2303.16618
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://tug.ctan.org/macros/latex/contrib/todonotes/todonotes.pdf
- https://github.com/st-vincent1/cornell_rich
- https://github.com/st-vincent1/lmcue
- https://convokit.cornell.edu/documentation/movie.html
- https://wikipedia.org/
- https://fandom.com/
- https://omdbapi.com/
- https://pypi.org/project/mosestokenizer/
- https://opensubtitles.org/