Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Présentation du dataset des dialogues d'événements de la vie

Un nouveau dataset pour extraire des événements de la vie personnelle à partir de conversations.

― 11 min lire


Extraction d'événementsExtraction d'événementsde vie conversationnelsdialogues.événements de vie à partir deNouvelles méthodes pour extraire des
Table des matières

Récemment, il y a eu beaucoup d'intérêt pour le lifelogging, qui consiste à documenter les événements de la vie quotidienne. Cette méthode a divers usages, comme donner des recommandations personnalisées ou aider avec la mémoire. Cependant, collecter et identifier les événements de la vie personnelle peut être un défi. Les gens partagent généralement leurs expériences lors de conversations, mais trouver ces événements de vie dans ces discussions n'a pas été étudié en profondeur.

Dans cet article, on présente un nouveau jeu de données appelé Life Event Dialog, qui contient des annotations détaillées d'événements de vie dans des données conversationnelles. On lance aussi une nouvelle tâche appelée extraction d'événements de vie en conversation, qui est différente de l'extraction d'événements sur les réseaux sociaux ou d'autres sources comme les microblogs. Pour aborder cette tâche, on examine trois systèmes différents d'extraction d'informations : OpenIE, l'extraction de relations et l'extraction d'événements.

Notre analyse de ces systèmes montre qu'ils ont encore des difficultés à extraire des événements de vie à partir de conversations quotidiennes. Ce jeu de données et notre étude détaillée des méthodes d'extraction d'informations soutiendront les recherches futures sur l'extraction d'événements de vie à partir de discussions.

Importance des Conversations Quotidiennes

Les conversations quotidiennes regorgent d'infos personnelles, couvrant le passé, les intérêts, les loisirs, les connexions avec les autres et divers événements de vie. Extraire ces événements de vie nous aide à mieux comprendre les individus. Les événements qu'on extrait peuvent construire une base de connaissances personnelles et aider dans diverses tâches, comme comprendre les modes de vie et fournir un soutien à la mémoire.

La plupart des recherches passées sur l'extraction d'événements de vie se sont concentrées sur des données provenant de plateformes comme Twitter. Cependant, les événements partagés sur ces plateformes sont souvent fixes et ne changent pas. En revanche, les événements mentionnés lors de conversations peuvent changer dynamiquement au fur et à mesure que les gens interagissent. Les conversations permettent aux participants de poser des questions et de recueillir plus d'infos sur les événements de vie, révélant un intérêt plus large pour différents aspects de la vie de quelqu'un.

Par exemple, quand quelqu'un mentionne un voyage, les autres pourraient demander avec qui ils ont voyagé, combien ça a coûté ou quand cela a eu lieu. Malgré ce potentiel d'extraction d'événements de vie à partir de conversations, il y a eu peu d'exploration dans ce domaine. Les méthodes existantes détectent souvent seulement des types d'événements vagues ou flous, et elles ne reconnaissent généralement pas les participants ou l'état changeant des événements, ce qui freine une analyse plus approfondie et des applications.

Jeu de Données Life Event Dialog

On présente le jeu de données Life Event Dialog (LED), qui contient des annotations détaillées d'événements de vie dans des conversations. On définit les événements de vie comme des activités se déroulant dans la vie quotidienne d'une personne, en se concentrant sur les verbes. Pour chaque événement, on attribue trois niveaux de détail : Verbe, Classe et Cadre. Contrairement à l'écriture formelle ou aux publications sur les réseaux sociaux, les conversations ont souvent un style plus décontracté et indirect, ce qui rend plus difficile l'identification explicite des événements.

Par exemple, dans un dialogue où une personne demande si elle peut prendre un café et l'autre répond "De-caff", le mot "commander" n'apparaît pas, mais on le comprend comme un événement de commande. Pour aborder cela, on introduit le concept d'Explicitness pour un événement. Si le type d'événement ne peut pas être extrait du dialogue, on attribue un verbe pour représenter l'activité et on le labelise comme un événement implicite.

Avec les types d'événements, on marque aussi le Sujet et l'Objet de chaque événement, identifiant qui est impliqué. Au fur et à mesure que les conversations évoluent, plus de détails peuvent surgir par le biais de questions de suivi ou de clarifications, montrant comment la nature d'un événement peut changer au fil du dialogue. On suit trois aspects du statut de l'événement : Polarité, Modalité et Temps, fournissant une image plus complète des événements de vie et permettant de suivre leurs changements.

Tâche d'Extraction d'Événements de Vie en Conversation

En passant de la simple classification d'événements de vie à l'introduction de la tâche d'extraction d'événements de vie en conversation, qui se concentre sur l'identification à la fois du type d'événement et de ses participants dans les conversations. Cette tâche est plus complexe que l'extraction traditionnelle d'événements publics en raison de la nature variée des événements de vie et du style informel des conversations.

Identifier les participants à l'événement peut être difficile, car ils ne sont souvent pas clairement définis et peuvent changer tout au long du dialogue. Aucun modèle existant n'aborde spécifiquement ce défi. Dans cet article, on évalue plusieurs systèmes d'extraction d'informations : OpenIE, extraction d'événements et extraction de relations.

Nos expériences révèlent que les modèles d'extraction actuels, même les plus avancés, ont du mal à extraire efficacement des événements de vie à partir de conversations. On analyse les avantages et les inconvénients de chaque modèle et on souligne la nécessité de méthodes améliorées pour l'extraction d'événements de vie en conversation.

Recherche Associée

Extraction d'Événements de Vie

La croissance des réseaux sociaux a conduit à une augmentation des données personnelles, qui peuvent être utiles pour les tâches de lifelogging. La plupart des recherches se sont concentrées sur des données provenant de plateformes comme Twitter, qui a tendance à avoir des types d'événements limités. Certaines études ont rassemblé des tweets liés à des événements de vie spécifiques et ont développé des systèmes pour extraire ces événements.

Contrairement aux réseaux sociaux, des jeux de données comme NTCIR14 Lifelog incluent des lifelogs multimodaux avec des images et des métadonnées, mais se concentrent principalement sur la récupération visuelle plutôt que sur l'extraction d'événements de vie. Par conséquent, même si toutes ces études regardent les événements de vie, notre travail sur l'extraction d'événements de vie en conversation est distinct parce qu'on se concentre sur les dialogues plutôt que sur des publications statiques sur les réseaux sociaux.

Extraction d'Événements en Conversation

Il y a eu des tentatives de conception de systèmes pour l'extraction d'événements à partir de conversations, mais ceux-ci diffèrent de notre objectif d'identifier les événements de vie partagés entre les participants. Des études antérieures ont évalué des systèmes existants sur diverses formes de dialogue, mais les jeux de données utilisés étaient petits et ne partageaient pas publiquement toutes les données pertinentes.

Il existe certaines études qui ont collecté des conversations et ont cherché à classifier les caractéristiques des événements, mais elles manquent des informations complémentaires complètes que nous fournissons dans notre jeu de données. Notre travail se concentre sur l'extraction d'événements de vie personnels à partir de conversations réelles et fournit des annotations détaillées qui incluent le statut des événements et les participants impliqués.

Définition de l'Événement de Vie

Dans notre recherche, on définit les événements de vie comme des activités, habitudes, expériences ou informations personnelles partagées par les participants. Cependant, on ne considère pas les connaissances générales, les problèmes publics ou les expressions purement émotionnelles comme des événements de vie. Les événements qui ne sont pas garantis de se produire, comme des suggestions ou des situations hypothétiques, ne sont pas non plus étiquetés comme événements de vie.

Schéma d'Événement

On catégorise les événements de vie en trois niveaux de détail : Verbe, Classe et Cadre. Le Verbe est l'action qui déclenche l'événement. La Classe représente les types d'événements plus fins, et le Cadre est un type d'événement plus large sélectionné par les annotateurs. Par exemple, le mot "get" peut appartenir à différentes catégories de Cadre, rendant nécessaire le fait d'étiqueter chaque événement avec à la fois la Classe et le Cadre.

Construction du Jeu de Données

On a construit le jeu de données LED en échantillonnant des conversations du jeu de données DailyDialog, qui inclut des conversations de la vie quotidienne. On a extrait des interactions en se concentrant sur divers sujets quotidiens, en veillant à ce que notre jeu de données capture des scénarios réalistes avec et sans événements de vie.

On a annoté 2 186 événements de vie uniques à partir de 4 485 énoncés, avec une part significative étant des Événements Implicites. Le statut de chaque événement a été enregistré, y compris la Polarité (positive ou négative), la Modalité (réelle ou hypothétique) et le Temps (quand l'événement a eu lieu).

Défis et Limitations

Un des défis clés dans notre travail est la nature dynamique des conversations. Beaucoup d'événements peuvent changer de signification ou de statut, en fonction du contexte et du déroulement du dialogue. De plus, la dépendance de notre jeu de données à une source spécifique comme DailyDialog pourrait limiter son applicabilité à d'autres formes de communication, comme des conversations à plusieurs ou des dialogues plus longs.

Bien qu'on ait des annotations détaillées, la taille du jeu de données peut ne pas être suffisante pour les modèles assoiffés de données d'aujourd'hui. On vise à élargir notre jeu de données et nos annotations dans des travaux futurs, en incluant plus de types de conversations et en couvrant un plus large éventail d'événements de vie.

Déclaration Éthique

Notre jeu de données a été développé à partir d'un jeu de données public existant, et la confidentialité est une priorité. Tous les intervenants dans la version originale ont été anonymisés. On ne partagera que les annotations d'événements de vie, garantissant que les informations personnelles restent protégées.

La recherche a été soutenue par diverses subventions et institutions, ce qui a facilité le processus d'annotation et le développement de ce travail. Les annotateurs ont été correctement rémunérés pour leurs efforts, et l'ensemble du processus a pris environ 1,5 mois à compléter.

Conclusion

Ce travail présente le jeu de données Life Event Dialog, une ressource complète pour étudier les événements de vie extraits de données conversationnelles. Notre recherche met en avant les caractéristiques uniques des événements de vie en conversation, soulignant leur nature dynamique. En introduisant la tâche d'extraction d'événements de vie en conversation, on vise à approfondir la compréhension et le développement de méthodes pour extraire efficacement des événements de vie personnels à partir de conversations.

Les travaux futurs se concentreront sur l'affinement des méthodes d'extraction, l'amélioration des performances sur l'identification des objets et la résolution des défis liés aux événements implicites. L'objectif est de développer un meilleur modèle capable de gérer les complexités de l'extraction d'événements de vie en conversation tout en élargissant le jeu de données pour des applications plus larges.

Source originale

Titre: LED: A Dataset for Life Event Extraction from Dialogs

Résumé: Lifelogging has gained more attention due to its wide applications, such as personalized recommendations or memory assistance. The issues of collecting and extracting personal life events have emerged. People often share their life experiences with others through conversations. However, extracting life events from conversations is rarely explored. In this paper, we present Life Event Dialog, a dataset containing fine-grained life event annotations on conversational data. In addition, we initiate a novel conversational life event extraction task and differentiate the task from the public event extraction or the life event extraction from other sources like microblogs. We explore three information extraction (IE) frameworks to address the conversational life event extraction task: OpenIE, relation extraction, and event extraction. A comprehensive empirical analysis of the three baselines is established. The results suggest that the current event extraction model still struggles with extracting life events from human daily conversations. Our proposed life event dialog dataset and in-depth analysis of IE frameworks will facilitate future research on life event extraction from conversations.

Auteurs: Yi-Pei Chen, An-Zi Yen, Hen-Hsen Huang, Hideki Nakayama, Hsin-Hsi Chen

Dernière mise à jour: 2023-04-17 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2304.08327

Source PDF: https://arxiv.org/pdf/2304.08327

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires