Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Présentation de PIPPA : Un nouveau jeu de données pour l'IA conversationnelle

PIPPA propose plus d'un million de conversations de jeu de rôle pour former des chatbots.

― 8 min lire


PIPPA : Dataset de jeu dePIPPA : Dataset de jeu derôle révélécapacités de jeu de rôle des chatbots.Un nouveau dataset améliore les
Table des matières

Ces dernières années, il y a eu un intérêt croissant pour la création de Chatbots capables de tenir des Conversations décontractées et de faire des jeux de rôle. Cependant, de nombreux ensembles de données existants utilisés pour entraîner ces chatbots ne reflètent pas la variété et la profondeur des interactions de la vie réelle. Pour combler cette lacune, on vous présente un nouvel ensemble de données appelé PIPPA, qui signifie Pairs d'Interactions Personnelles entre les Gens et l'IA. Cet ensemble a été créé avec l'aide d'une Communauté d'amateurs de jeux de rôle et contient plus d'un million d'échanges répartis sur 26 000 conversations. PIPPA est une ressource précieuse pour les chercheurs et les développeurs qui travaillent sur l'IA conversationnelle, en particulier dans des contextes de jeu de rôle.

Qu'est-ce que PIPPA ?

PIPPA est un grand ensemble de données qui comprend une large gamme de conversations entre des gens et des chatbots. Chaque conversation est basée sur un personnage ou une personnalité spécifique, permettant aux chatbots de simuler ces personnages durant les interactions. L'ensemble de données a été construit grâce aux contributions de membres de la communauté, qui ont fourni leurs journaux de conversation et des descriptions des personnages. L'objectif de PIPPA est de soutenir le développement de chatbots capables d'impliquer les utilisateurs dans des conversations riches et conscientes du contexte.

Compilation de l'ensemble de données

La création de PIPPA a impliqué la collecte de journaux de conversation et de descriptions de personnages d'un site populaire connu pour héberger des chatbots. Un script créé par un utilisateur a été utilisé pour rassembler ces données, permettant aux utilisateurs de soumettre leurs conversations pour inclusion dans l'ensemble de données. Pour protéger la vie privée des utilisateurs, toute personne contribuant à PIPPA a eu la possibilité de garder ses journaux privés. Seuls les journaux pour lesquels les utilisateurs ont explicitement donné leur permission ont été inclus, et des efforts ont été faits pour retirer toute information personnelle.

Structure de PIPPA

L'ensemble de données PIPPA contient des informations précieuses qui vont au-delà des simples conversations. Chaque conversation comprend des métadonnées sur les chatbots, comme leurs traits de personnalité et leurs descriptions. Ces traits aident à fournir du contexte et permettent aux chatbots de rester dans leur personnage pendant les interactions. Par exemple, chaque chatbot a un message de bienvenue pour les utilisateurs, qui sert de point de départ pour les conversations. De plus, des horodatages sont enregistrés pour indiquer quand les conversations ont été soumises, bien que l'heure exacte des conversations originales ne soit pas disponible.

Analyse de l'ensemble de données

PIPPA offre des aperçus sur divers aspects des conversations, comme leur longueur, la verbosité des messages et la distribution des différentes personnalités de chatbots.

Longueur des conversations

Les conversations dans PIPPA varient considérablement en longueur. En moyenne, les conversations ont environ 40 tours, mais la longueur médiane est d'environ 10 tours. Cela suggère que, bien que de nombreux utilisateurs s'engagent dans des dialogues plus courts, certaines conversations peuvent être assez longues. La conversation la plus longue enregistrée contient un impressionnant 11 491 tours. Cette variation dans la longueur reflète les différentes manières dont les utilisateurs interagissent avec les chatbots.

Verbosité des messages

La longueur des messages individuels est un autre aspect intéressant de l'ensemble de données. L'analyse montre que les messages suivent généralement une distribution de loi de puissance, ce qui signifie que les messages plus courts sont plus courants que les longs. De plus, on a constaté que les réponses des chatbots sont généralement plus longues que celles des utilisateurs humains. Cela pourrait être dû à la manière dont les chatbots sont entraînés, les amenant à générer des réponses plus élaborées par rapport aux échanges humains plus décontractés.

Catégories de personnalité des bots

Chaque chatbot dans PIPPA est classé en fonction de ses traits de caractère. L'analyse de ces catégories révèle certaines tendances ; par exemple, "Anime", "Fantaisie" et "Action" sont les catégories les plus souvent attribuées. Cela reflète les intérêts de la communauté qui a contribué à l'ensemble de données, qui a une forte présence d'amateurs d'anime et un penchant pour les scénarios de jeu de rôle.

Comparaison avec d'autres ensembles de données

Bien qu'il existe d'autres ensembles de données disponibles pour des tâches conversationnelles et de jeu de rôle, beaucoup sont limités en portée ou ne capturent pas la profondeur des interactions trouvées dans PIPPA. Certains ensembles de données existants se concentrent sur des contextes spécifiques, comme les jeux de rôle fantastiques, tandis que d'autres contiennent des conversations décontractées sans la richesse des dialogues basés sur des personnages. PIPPA se démarque car elle combine une large gamme de personnages et de situations, la rendant plus applicable à l'entraînement de chatbots dans des contextes variés.

Ensembles de données de jeu de rôle

Plusieurs ensembles de données de jeu de rôle ont été créés dans le passé, mais ils tendent à se concentrer sur des scénarios étroits. Par exemple, il existe des ensembles de données conçus autour de paramètres d'aventure fantastique, mais ceux-ci ne comprennent pas la variété offerte par PIPPA. PIPPA propose une gamme plus large de personnages et de situations qui peuvent être utilisés dans différents types de jeux de rôle.

Ensembles de données conversationnelles

Les ensembles de données conversationnelles sont plus courants, mais beaucoup manquent du contexte de personnage que PIPPA fournit. Par exemple, certains ensembles de données comme DailyDialog contiennent des conversations quotidiennes mais n'impliquent pas de personnages ou de traits spécifiques. Le Cornell Movie Dialogs Corpus offre des dialogues de films mais n'est pas adapté aux interactions de jeu de rôle basées sur le chat. PIPPA comble cette lacune en fournissant des conversations riches et axées sur le contexte, idéales pour les chatbots de jeu de rôle.

Ensembles de données pédagogiques

Les ensembles de données pédagogiques ont récemment attiré l'attention pour le développement de chatbots. Ces ensembles de données incluent souvent des interactions conçues pour apprendre aux modèles comment répondre dans des contextes spécifiques. Bien que ces ensembles puissent être utiles, ils peuvent ne pas correspondre aux intérêts des amateurs de jeux de rôle. PIPPA, en revanche, est explicitement conçue pour des interactions de jeu de rôle, renforçant sa pertinence à cet égard.

Considérations éthiques

La création de PIPPA a impliqué des contributions de nombreux utilisateurs anonymes au sein de la communauté de jeu de rôle. Bien que des efforts aient été faits pour garantir la qualité des données et supprimer les informations sensibles, la nature collaborative du projet signifie que tous les journaux soumis n'ont pas pu être vérifiés de manière approfondie. Par conséquent, il est possible que certains contenus inappropriés puissent rester. Un engagement à protéger la vie privée des utilisateurs a été une priorité, et PIPPA n'inclut que des données provenant de participants ayant accepté de partager leurs contributions publiquement.

Conclusion

PIPPA représente une contribution notable au domaine de l'IA conversationnelle, en particulier dans le domaine des applications de jeu de rôle. Sa collection unique de conversations variées et d'interactions axées sur des personnages en fait une ressource précieuse pour les chercheurs et les développeurs. En rendant PIPPA disponible publiquement, nous espérons encourager de nouvelles avancées dans la création de chatbots capables d'engager les utilisateurs de manière plus significative et immersive. Les efforts collaboratifs qui ont donné vie à PIPPA reflètent la passion d'une communauté pour le jeu de rôle et l'exploration conversationnelle, ouvrant la voie à des développements passionnants dans les interactions basées sur l'IA. Merci à tous ceux qui ont contribué à cette initiative, votre soutien a été inestimable pour créer un ensemble de données qui enrichit le paysage de l'IA conversationnelle.

Source originale

Titre: PIPPA: A Partially Synthetic Conversational Dataset

Résumé: With the emergence of increasingly powerful large language models, there is a burgeoning interest in leveraging these models for casual conversation and role-play applications. However, existing conversational and role-playing datasets often fail to capture the diverse and nuanced interactions typically exhibited by real-world role-play participants. To address this limitation and contribute to the rapidly growing field, we introduce a partially-synthetic dataset named PIPPA (Personal Interaction Pairs between People and AI). PIPPA is a result of a community-driven crowdsourcing effort involving a group of role-play enthusiasts. The dataset comprises over 1 million utterances that are distributed across 26,000 conversation sessions and provides a rich resource for researchers and AI developers to explore and refine conversational AI systems in the context of role-play scenarios.

Auteurs: Tear Gosling, Alpin Dale, Yinhe Zheng

Dernière mise à jour: 2023-08-10 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2308.05884

Source PDF: https://arxiv.org/pdf/2308.05884

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires