Apresentando o Conjunto de Dados de Diálogos sobre Eventos da Vida
Um novo conjunto de dados pra extrair eventos da vida pessoal a partir de conversas.
― 9 min ler
Índice
Recentemente, tem rolado um monte de interesse em lifelogging, que é basicamente documentar eventos do dia a dia. Esse método tem várias utilidades, tipo dar recomendações personalizadas ou ajudar na memória. Mas, coletar e identificar eventos da vida pessoal pode ser meio complicado. Normalmente, as pessoas compartilham suas experiências em conversas, mas encontrar eventos da vida nessas conversas ainda não foi muito estudado.
Nesse artigo, a gente apresenta um novo conjunto de dados chamado Life Event Dialog, que contém anotações detalhadas de eventos da vida em dados de conversa. A gente também lançou uma nova tarefa chamada extração de eventos da vida em conversas, que é diferente de extrair eventos de redes sociais ou outras fontes como microblogs. Pra lidar com essa tarefa, a gente analisou três sistemas diferentes de extração de informações: OpenIE, extração de relações e extração de eventos.
Nossa análise desses sistemas mostra que eles ainda têm dificuldades em extrair eventos da vida de conversas do dia a dia. Esse conjunto de dados e nosso estudo detalhado dos métodos de extração de informações vão ajudar pesquisas futuras sobre como extrair eventos da vida de discussões.
Importância das Conversas Diárias
As conversas do dia a dia são ricas em informações pessoais, cobrindo histórico, interesses, hobbies, conexões com outros e diversos eventos da vida. Extrair esses eventos ajuda a entender melhor os indivíduos. Os eventos que a gente extrai podem formar uma base de conhecimento pessoal e ajudar em várias tarefas, como entender estilos de vida e fornecer suporte de memória.
A maioria das pesquisas anteriores sobre extração de eventos da vida focou em dados de plataformas como Twitter. Mas, os eventos compartilhados nessas plataformas costumam ser fixos e não mudam. Em contraste, eventos mencionados durante conversas podem mudar dinamicamente enquanto as pessoas interagem. As conversas permitem que os participantes façam perguntas e obtenham mais informações sobre eventos da vida, revelando um interesse mais amplo em diferentes aspectos da vida de alguém.
Por exemplo, se alguém menciona uma viagem, outros podem perguntar com quem a pessoa viajou, quanto custou ou quando aconteceu. Apesar desse potencial pra extrair eventos da vida de conversas, a exploração nesse campo ainda é bem limitada. Métodos existentes costumam detectar apenas tipos de eventos amplos ou vagos, e geralmente não reconhecem os participantes ou o status mudando dos eventos, o que atrapalha análises mais profundas e aplicações.
Conjunto de Dados Life Event Dialog
Apresentamos o conjunto de dados Life Event Dialog (LED), que tem anotações detalhadas de eventos da vida em conversas. Definimos eventos da vida como atividades que acontecem na vida de uma pessoa, focando em verbos. Pra cada evento, a gente atribui três níveis de detalhe: Verbo, Classe e Quadro. Diferente da escrita formal ou postagens em redes sociais, as conversas costumam ter um estilo mais casual e indireto, tornando mais difícil identificar eventos de forma explícita.
Por exemplo, em um diálogo onde uma pessoa pergunta se pode pegar um café e a outra responde "De-caff", a palavra "pedido" não aparece, mas entendemos como um evento de pedido. Pra resolver isso, introduzimos o conceito de Explicitness para um evento. Se o tipo de evento não puder ser extraído do diálogo, a gente atribui um verbo pra representar a atividade e rotula como um evento implícito.
Junto com os tipos de evento, também marcamos o Sujeito e o Objeto de cada evento, identificando quem está envolvido. À medida que as conversas evoluem, mais detalhes podem aparecer através de perguntas de acompanhamento ou esclarecimentos, mostrando como a natureza de um evento pode mudar ao longo do diálogo. A gente acompanha três aspectos do status do evento: Polaridade, Modalidade e Tempo, proporcionando uma visão mais completa dos eventos da vida e permitindo que a gente monitore suas mudanças.
Tarefa de Extração de Eventos da Vida em Conversas
Saindo apenas da classificação de eventos da vida, a gente introduz a tarefa de Extração de Eventos da Vida em Conversas, que foca em identificar tanto o tipo de evento quanto seus participantes nas conversas. Essa tarefa é mais complexa do que a extração tradicional de eventos públicos devido à diversidade dos eventos da vida e ao estilo informal das conversas.
Identificar participantes de eventos pode ser complicado, já que eles costumam não ser claramente definidos e podem mudar ao longo do diálogo. Nenhum modelo existente aborda especificamente esse desafio. Nesse artigo, avaliamos múltiplos sistemas de extração de informações: OpenIE, extração de eventos e extração de relações.
Nossos experimentos revelam que os modelos de extração atuais, mesmo os mais avançados, têm dificuldade em extrair eficazmente eventos da vida de conversas. A gente analisa as vantagens e desvantagens de cada modelo e enfatiza a necessidade de métodos melhorados para a extração de eventos da vida em conversas.
Pesquisa Relacionada
Extração de Eventos da Vida
O crescimento das redes sociais levou a um aumento de dados pessoais, que pode ser útil para tarefas de lifelogging. A maioria das pesquisas focou em dados de plataformas como Twitter, que tende a ter tipos de eventos limitados. Alguns estudos coletaram tweets relacionados a eventos da vida específicos e desenvolveram sistemas pra extrair esses eventos.
Ao contrário das redes sociais, conjuntos de dados como o NTCIR14 Lifelog incluem lifelogs multimodais com imagens e metadados, mas focam principalmente na recuperação visual, em vez de na extração de eventos da vida. Portanto, enquanto todos esses estudos olham para eventos da vida, nosso trabalho na extração de eventos da vida em conversas é distinto porque focamos em diálogos, não em postagens estáticas de redes sociais.
Extração de Eventos em Conversas
Já houve tentativas de criar sistemas para extração de eventos em conversas, mas esses diferem do nosso objetivo de identificar eventos da vida compartilhados entre os participantes. Estudos anteriores avaliaram sistemas existentes em várias formas de diálogo, mas os conjuntos de dados usados eram pequenos e não compartilharam publicamente todos os dados relevantes.
Existem alguns estudos que coletaram conversas e tentaram classificar características de eventos, mas eles carecem das informações complementares abrangentes que a gente fornece em nosso conjunto de dados. Nosso trabalho foca em extrair eventos pessoais da vida de conversas reais e fornece anotações detalhadas que incluem o status dos eventos e os participantes envolvidos.
Definição de Eventos da Vida
Na nossa pesquisa, definimos eventos da vida como atividades, hábitos, experiências ou informações pessoais compartilhadas pelos participantes. Mas, a gente não considera conhecimento geral, questões públicas ou expressões puramente emocionais como eventos da vida. Eventos que não são garantidos de acontecer, como sugestões ou situações hipotéticas, também não são rotulados como eventos da vida.
Esquema de Evento
A gente categoriza eventos da vida em três níveis de detalhe: Verbo, Classe e Quadro. O Verbo é a ação que aciona o evento. A Classe representa tipos de eventos mais detalhados, e o Quadro é um tipo de evento mais amplo selecionado pelos anotadores. Por exemplo, a palavra "pegar" pode pertencer a diferentes categorias de Quadro, tornando necessário rotular cada evento com Classe e Quadro.
Construção do Conjunto de Dados
Criamos o conjunto de dados LED amostrando conversas do conjunto DailyDialog, que inclui conversas da vida diária. A gente extraiu interações focando em vários tópicos do dia a dia, garantindo que nosso conjunto de dados capture cenários realistas com e sem eventos da vida.
Anotamos 2.186 eventos únicos da vida a partir de 4.485 falas, com uma parte significativa sendo Eventos Implícitos. O status de cada evento foi registrado, incluindo Polaridade (positivo ou negativo), Modalidade (real ou hipotético) e Tempo (quando o evento ocorreu).
Desafios e Limitações
Um grande desafio no nosso trabalho é a natureza dinâmica das conversas. Muitos eventos podem mudar de significado ou status, dependendo do contexto e do fluxo do diálogo. Além disso, a dependência do nosso conjunto de dados em uma fonte específica como o DailyDialog pode limitar sua aplicabilidade a outras formas de comunicação, como conversas em grupo ou diálogos mais longos.
Embora a gente tenha anotações detalhadas, o tamanho do conjunto de dados pode não ser suficiente para os modelos famintos por dados de hoje. A gente pretende expandir nosso conjunto de dados e anotações em trabalhos futuros, incluindo mais tipos de conversa e cobrindo uma gama mais ampla de eventos da vida.
Declaração de Ética
Nosso conjunto de dados foi desenvolvido a partir de um conjunto de dados público existente, e a privacidade é uma prioridade. Todos os falantes na liberação original foram anonimizados. A gente vai compartilhar apenas as anotações de eventos da vida, garantindo que as informações pessoais permaneçam protegidas.
A pesquisa foi apoiada por várias bolsas e instituições, que facilitaram o processo de anotação e o desenvolvimento deste trabalho. Os anotadores foram compensados de forma justa por seus esforços, e todo o processo levou cerca de 1,5 meses pra ser concluído.
Conclusão
Esse trabalho apresenta o conjunto de dados Life Event Dialog, um recurso abrangente para estudar eventos da vida extraídos de dados de conversa. Nossa pesquisa destaca as características únicas dos eventos da vida em conversas, enfatizando sua natureza dinâmica. Ao introduzir a tarefa de Extração de Eventos da Vida em Conversas, a gente visa aprofundar a compreensão e o desenvolvimento de métodos para extrair efetivamente eventos pessoais da vida de conversas.
Os trabalhos futuros vão focar em refinar os métodos de extração, melhorar o desempenho na identificação de objetos e lidar com os desafios dos eventos implícitos. O objetivo é desenvolver um modelo melhor que possa lidar com as complexidades da extração de eventos da vida em conversas enquanto expande o conjunto de dados para aplicações mais amplas.
Título: LED: A Dataset for Life Event Extraction from Dialogs
Resumo: Lifelogging has gained more attention due to its wide applications, such as personalized recommendations or memory assistance. The issues of collecting and extracting personal life events have emerged. People often share their life experiences with others through conversations. However, extracting life events from conversations is rarely explored. In this paper, we present Life Event Dialog, a dataset containing fine-grained life event annotations on conversational data. In addition, we initiate a novel conversational life event extraction task and differentiate the task from the public event extraction or the life event extraction from other sources like microblogs. We explore three information extraction (IE) frameworks to address the conversational life event extraction task: OpenIE, relation extraction, and event extraction. A comprehensive empirical analysis of the three baselines is established. The results suggest that the current event extraction model still struggles with extracting life events from human daily conversations. Our proposed life event dialog dataset and in-depth analysis of IE frameworks will facilitate future research on life event extraction from conversations.
Autores: Yi-Pei Chen, An-Zi Yen, Hen-Hsen Huang, Hideki Nakayama, Hsin-Hsi Chen
Última atualização: 2023-04-17 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2304.08327
Fonte PDF: https://arxiv.org/pdf/2304.08327
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.