ZeroGen : Une nouvelle approche de la génération de texte
ZeroGen génère du texte en utilisant à la fois des entrées visuelles et textuelles de manière efficace.
― 8 min lire
Table des matières
Créer automatiquement du texte qui réponde à des besoins précis, c'est un but super compliqué et qui existe depuis longtemps en tech. Même si on a fait des progrès pour que les systèmes de génération de texte réagissent à un seul type de contrôle-comme certains mots ou styles-trouver des manières de les rendre réactifs à plusieurs sources d'entrée, comme des images et du texte, efficacement, c'est encore en cours de développement.
On présente un nouveau système qui s'appelle ZeroGen, qui aide à générer du texte en utilisant des signaux provenant à la fois de texte et d'images sans avoir besoin de formation supplémentaire. Il utilise ces différents types de contrôle de manière intelligente pour améliorer la qualité du texte généré. En combinant des entrées de texte et d'images, on peut guider le système pour produire des résultats plus pertinents et personnalisés.
ZeroGen fonctionne d'abord en prenant une entrée d'un morceau de texte et d'une image pour guider son processus de génération. Il utilise différents niveaux de contrôle d'entrée-des petits morceaux d'informations comme des mots-clés à des descriptions plus larges au niveau des phrases. Ça veut dire que le système peut être flexible et fournir des résultats qui correspondent mieux à ce qui est souhaité.
Contexte
Les grands modèles pré-entraînés ont eu un énorme impact dans le domaine de l'intelligence artificielle. Ces modèles apprennent à partir d'énormes quantités de données, ce qui leur permet d'effectuer diverses tâches. En particulier, les modèles de langage pré-entraînés (PLMs) sont devenus fondamentaux pour générer des textes qui obéissent à des règles ou styles spécifiques. Le contrôle sur le texte généré peut inclure la longueur souhaitée, le sujet ou le style.
Les méthodes traditionnelles qui guident la génération de texte reposent généralement sur l'entraînement du modèle sur un énorme nombre d'exemples. Cette approche peut être limitante étant donné qu'il existe des combinaisons de mots infinies et souvent un manque de données étiquetées. Récemment, les chercheurs se sont tournés vers des méthodes "plug-and-play". Ces méthodes visent à insérer des contrôles simples dans des modèles de langage existants avec peu ou pas de formation. Cependant, elles ont tendance à ne fonctionner qu'avec des types d'entrée uniques, comme des mots-clés ou des sujets, plutôt qu'avec des entrées mixtes comme des images et du texte.
Il y a des défis dans la communication humaine qui ne sont pas bien abordés en utilisant uniquement du texte. Les interactions réelles reposent souvent sur des indices visuels et un contexte qui ne peuvent pas être capturés avec du texte seul. Donc, s'appuyer seulement sur des types uniques de contrôles dans les systèmes de génération de texte peut créer des problèmes, surtout pour des tâches qui nécessitent une compréhension des contextes textuels et visuels.
Pour résoudre ces problèmes, on étend les méthodes "plug-and-play" traditionnelles pour intégrer à la fois du texte et des images et on présente ZeroGen. Notre but est de débloquer le potentiel du contrôle multimodal dans la génération de texte.
L'approche ZeroGen
Le système ZeroGen est conçu pour créer du texte en tenant compte des contributions des contrôles visuels et textuels. Il le fait de deux manières distinctes :
- Guidage textuel au niveau des tokens : Le système analyse de petits morceaux de texte (tokens) et trouve leur similarité avec les mots-clés donnés.
- Guidage visuel au niveau des phrases : Le système examine l'image pour établir une compréhension plus complète du contexte derrière le contenu visuel et génère des phrases associées.
Guidage textuel au niveau des tokens
Dans la première étape, ZeroGen se concentre sur des mots-clés individuels qui orientent le texte généré. Le système identifie à quel point ces mots-clés correspondent au vocabulaire qu'il utilise, assurant que le texte qu'il crée est en accord avec les indications données. Cette étape se fait avant que le texte ne soit généré.
Guidage visuel au niveau des phrases
En plus des mots-clés, ZeroGen utilise le contenu d'une image pour fournir un contexte plus détaillé. En comparant les éléments visuels de l'image avec le texte potentiel, il s'assure que les phrases générées reflètent précisément ce que l'image montre. Cette partie se fait pendant le processus de génération de texte.
Mécanisme de pondération dynamique
Pour améliorer davantage la sortie, ZeroGen utilise une approche de pondération dynamique. Ça veut dire que le système peut ajuster combien chaque type de guidage (textuel ou visuel) influence la génération de texte. En équilibrant correctement ces entrées, le système parvient à produire un contenu fluide, pertinent et engageant.
Tâches et tests
On a testé ZeroGen sur trois tâches différentes :
- Légendage d'images : Ça consiste à générer des légendes descriptives pour des images.
- Légendage stylisé : C'est similaire au légendage d'images mais ajoute des éléments stylistiques aux légendes.
- Génération d'actualités contrôlables : Le système génère des articles de presse basés sur des images et des sentiments spécifiés.
Légendage d'images
Dans la tâche de légendage d'images, on a évalué à quel point ZeroGen pouvait créer des légendes pour des images en utilisant à la fois des contrôles textuels et visuels. Les légendes générées ont été comparées aux méthodes existantes pour évaluer leur qualité et leur pertinence. ZeroGen a produit de meilleures légendes que de nombreuses méthodes de référence, montrant des avantages significatifs dans son approche d'intégration de plusieurs types d'entrées.
Légendage stylisé
Ensuite, on a examiné le légendage stylisé, où le but était de produire des légendes avec des styles particuliers, comme des tons romantiques ou humoristiques. ZeroGen a été capable de s'adapter et de générer des légendes qui correspondaient efficacement à ces styles, surpassant souvent d'autres modèles qui nécessitaient un entraînement spécifique à la tâche.
Génération d'actualités contrôlables
Dans la tâche de génération d'actualités contrôlables, ZeroGen devait générer des articles de presse pertinents basés sur des entrées visuelles et textuelles qui véhiculaient un certain sentiment. Ça voulait dire que le système devait comprendre non seulement le contenu de l'image mais aussi comment exprimer des émotions comme la positivité ou la négativité à travers son écriture. Les résultats ont montré que ZeroGen a efficacement généré du contenu d'actualités qui était étroitement aligné avec les visuels et les indications de sentiment donnés.
Résultats
Les tests approfondis sur ces trois tâches ont révélé que ZeroGen a constamment surpassé d'autres modèles. Sa capacité à tirer parti des entrées textuelles et visuelles sans avoir besoin d'un entraînement extensive basé sur les tâches s'est avérée être un avantage important.
Métriques d'évaluation
On a utilisé plusieurs métriques d'évaluation pour comparer l'efficacité de notre système par rapport aux méthodes existantes. Les métriques étaient conçues pour évaluer :
- Fluidité : À quel point le texte généré est bien formé et compréhensible.
- Pertinence : À quel point le texte est en rapport avec les images ou les mots-clés fournis.
- Adhésion au sentiment : À quel point le texte reflète avec précision le ton émotionnel désiré.
Des évaluations humaines ont en outre soutenu les résultats quantitatifs, confirmant que ZeroGen produisait des sorties qui étaient non seulement cohérentes mais aussi diverses et contextuellement appropriées.
Conclusion
En résumé, ZeroGen représente un avancement notable dans le domaine de la génération de texte contrôlable. En combinant des entrées provenant à la fois de texte et d'images, il propose une nouvelle façon de générer du contenu pertinent et de haute qualité sans nécessiter d'entraînement supplémentaire intensif.
Malgré ses succès, il reste encore des domaines à améliorer. Les défis en cours incluent l'amélioration de la diversité des textes générés et la résolution des problèmes liés aux biais qui peuvent survenir à partir de données d'entraînement spécifiques. Les travaux futurs exploreront ces domaines pour affiner les capacités de ZeroGen et élargir ses applications dans des scénarios réels.
Avec le développement continu de systèmes multimodaux plus robustes, on est optimistes quant à l'avenir des technologies de génération de texte contrôlable et de leur potentiel à créer des outils de communication plus efficaces.
Titre: ZeroGen: Zero-shot Multimodal Controllable Text Generation with Multiple Oracles
Résumé: Automatically generating textual content with desired attributes is an ambitious task that people have pursued long. Existing works have made a series of progress in incorporating unimodal controls into language models (LMs), whereas how to generate controllable sentences with multimodal signals and high efficiency remains an open question. To tackle the puzzle, we propose a new paradigm of zero-shot controllable text generation with multimodal signals (\textsc{ZeroGen}). Specifically, \textsc{ZeroGen} leverages controls of text and image successively from token-level to sentence-level and maps them into a unified probability space at decoding, which customizes the LM outputs by weighted addition without extra training. To achieve better inter-modal trade-offs, we further introduce an effective dynamic weighting mechanism to regulate all control weights. Moreover, we conduct substantial experiments to probe the relationship of being in-depth or in-width between signals from distinct modalities. Encouraging empirical results on three downstream tasks show that \textsc{ZeroGen} not only outperforms its counterparts on captioning tasks by a large margin but also shows great potential in multimodal news generation with a higher degree of control. Our code will be released at https://github.com/ImKeTT/ZeroGen.
Auteurs: Haoqin Tu, Bowen Yang, Xianfeng Zhao
Dernière mise à jour: 2023-06-28 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.16649
Source PDF: https://arxiv.org/pdf/2306.16649
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/ImKeTT/ZeroGen
- https://cocodataset.org
- https://www.kaggle.com/datasets/hsankesara/flickr-image-dataset
- https://huggingface.co/cambridgeltl/magic_flickr30k
- https://huggingface.co/cambridgeltl/magic_mscoco
- https://zhegan27.github.io/Papers/FlickrStyle_v0.9.zip
- https://github.com/FuxiaoLiu/VisualNews-Repository
- https://github
- https://github.com/yxuansu/MAGIC
- https://github.com/uber-research/PPLM
- https://github.com/hit-scma/CAT-PAW
- https://anonymous.4open.science/r/Pplm_Magic-3E15