Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje

Presentamos el Conjunto de Datos de Diálogo de Eventos de Vida

Un nuevo conjunto de datos para extraer eventos de la vida personal de conversaciones.

― 9 minilectura


Extracción de Eventos deExtracción de Eventos deVida Conversacionalesvida de diálogos.Nuevos métodos para extraer eventos de
Tabla de contenidos

Recientemente, ha habido mucho interés en el lifelogging, que consiste en documentar eventos de la vida diaria. Este método tiene varios usos, como dar recomendaciones personalizadas o ayudar con la memoria. Sin embargo, recopilar e identificar eventos de vida personal puede ser un desafío. La gente suele compartir sus experiencias a través de conversaciones, pero encontrar eventos de vida en estas charlas no se ha estudiado a fondo.

En este artículo, presentamos un nuevo conjunto de datos llamado Life Event Dialog, que contiene anotaciones detalladas de eventos de vida en datos de conversación. También lanzamos una nueva tarea llamada extracción de eventos de vida conversacionales, que es diferente de extraer eventos de redes sociales u otras fuentes como microblogs. Para abordar esta tarea, examinamos tres sistemas diferentes de extracción de información: OpenIE, extracción de relaciones y extracción de eventos.

Nuestro análisis de estos sistemas muestra que todavía tienen dificultades para extraer eventos de vida de conversaciones diarias. Este conjunto de datos y nuestro estudio detallado de los métodos de extracción de información apoyarán futuras investigaciones sobre la extracción de eventos de vida de las discusiones.

Importancia de las Conversaciones Diarias

Las conversaciones cotidianas son ricas en información personal, abarcando antecedentes, intereses, pasatiempos, conexiones con otros y varios eventos de vida. Extraer estos eventos de vida nos ayuda a entender mejor a las personas. Los eventos que extraemos pueden construir una base de conocimiento personal y ayudar en varias tareas, como entender estilos de vida y brindar apoyo a la memoria.

La mayoría de la investigación pasada sobre extracción de eventos de vida se ha centrado en datos de plataformas como Twitter. Sin embargo, los eventos compartidos en estas plataformas suelen ser fijos y no cambian. En contraste, los eventos mencionados durante las conversaciones pueden cambiar dinámicamente a medida que las personas interactúan. Las charlas permiten a los participantes hacer preguntas y recopilar más información sobre los eventos de vida, revelando un interés más amplio en diferentes aspectos de la vida de alguien.

Por ejemplo, si alguien menciona un viaje, otros pueden preguntar con quién viajó, cuánto costó o cuándo sucedió. A pesar de este potencial para extraer eventos de vida de las conversaciones, ha habido una exploración limitada en este área. Los métodos existentes a menudo solo detectan tipos de eventos amplios o poco claros, y generalmente no reconocen a los participantes o el estado cambiante de los eventos, lo que dificulta un análisis más profundo y aplicaciones.

Conjunto de Datos Life Event Dialog

Presentamos el conjunto de datos Life Event Dialog (LED), que tiene anotaciones detalladas de eventos de vida en conversaciones. Definimos los eventos de vida como actividades que ocurren en la vida diaria de una persona, enfocándonos en los verbos. Para cada evento, asignamos tres niveles de detalle: Verbo, Clase y Marco. A diferencia de la escritura formal o de las publicaciones en redes sociales, las conversaciones suelen tener un estilo más casual e indirecto, lo que hace más difícil identificar eventos de manera explícita.

Por ejemplo, en un diálogo donde una persona pregunta si puede pedir un café y la otra responde "De-caff", la palabra "pedido" no aparece, pero se entiende como un evento de pedido. Para abordar esto, introducimos el concepto de Explicitness para un evento. Si no se puede extraer el tipo de evento del diálogo, asignamos un verbo para representar la actividad y lo etiquetamos como un evento implícito.

Junto con los tipos de eventos, también marcamos el Sujeto y Objeto de cada evento, identificando quién está involucrado. A medida que las conversaciones evolucionan, pueden surgir más detalles a través de preguntas de seguimiento o aclaraciones, mostrando cómo la naturaleza de un evento puede cambiar a lo largo del diálogo. Seguimos tres aspectos del estado del evento: Polaridad, Modalidad y Tiempo, proporcionando una imagen más completa de los eventos de vida y permitiéndonos monitorear sus cambios.

Tarea de Extracción de Eventos de Vida Conversacionales

Pasando de simplemente clasificar eventos de vida, introducimos la tarea de Extracción de Eventos de Vida Conversacionales, que se enfoca en identificar tanto el tipo de evento como sus participantes a partir de conversaciones. Esta tarea es más compleja que la extracción tradicional de eventos públicos debido a la naturaleza diversa de los eventos de vida y el estilo informal de las conversaciones.

Identificar a los participantes del evento puede ser complicado, ya que a menudo no están claramente definidos y pueden cambiar a lo largo del diálogo. Ningún modelo existente aborda específicamente este desafío. En este artículo, evaluamos múltiples sistemas de extracción de información: OpenIE, extracción de eventos y extracción de relaciones.

Nuestros experimentos revelan que los modelos de extracción actuales, incluso los avanzados, tienen dificultades para extraer efectivamente eventos de vida de las conversaciones. Analizamos las ventajas y desventajas de cada modelo y enfatizamos la necesidad de mejorar los métodos para la extracción de eventos de vida conversacionales.

Investigación Relacionada

Extracción de Eventos de Vida

El crecimiento de las redes sociales ha llevado a un aumento de datos personales, que pueden ser útiles para tareas de lifelogging. La mayoría de la investigación se ha centrado en datos de plataformas como Twitter, que tienden a tener tipos de eventos limitados. Algunos estudios han recopilado tweets relacionados con eventos de vida específicos y han desarrollado sistemas para extraer estos eventos.

En contraste con las redes sociales, conjuntos de datos como NTCIR14 Lifelog incluyen lifelogs multimodales con imágenes y metadatos, pero se centran principalmente en la recuperación visual en lugar de la extracción de eventos de vida. Por lo tanto, aunque todos estos estudios analizan eventos de vida, nuestro trabajo en la extracción de eventos de vida conversacionales es distinto porque nos enfocamos en diálogos en lugar de publicaciones estáticas en redes sociales.

Extracción de Eventos Conversacionales

Ha habido intentos de diseñar sistemas para la extracción de eventos de conversaciones, pero estos difieren de nuestro objetivo de identificar eventos de vida compartidos entre los participantes. Estudios anteriores evaluaron sistemas existentes en varias formas de diálogo, pero los conjuntos de datos utilizados eran pequeños y no compartían públicamente todos los datos relevantes.

Hay algunos estudios que han recopilado conversaciones y han intentado clasificar características de eventos, pero carecen de la información complementaria exhaustiva que ofrecemos en nuestro conjunto de datos. Nuestro trabajo se centra en extraer eventos de vida personal de conversaciones reales y proporciona anotaciones detalladas que incluyen el estado de los eventos y los participantes involucrados.

Definición de Evento de Vida

En nuestra investigación, definimos los eventos de vida como actividades, hábitos, experiencias o información personal compartida por los participantes. Sin embargo, no consideramos como eventos de vida el conocimiento general, los problemas públicos o las expresiones puramente emocionales. Los eventos que no están garantizados para suceder, como sugerencias o situaciones hipotéticas, tampoco se etiquetan como eventos de vida.

Esquema de Evento

Categoríamos los eventos de vida en tres niveles de detalle: Verbo, Clase y Marco. El Verbo es la acción que desencadena el evento. La Clase representa tipos de eventos más finos, y el Marco es un tipo de evento más amplio seleccionado por los anotadores. Por ejemplo, la palabra "obtener" puede pertenecer a diferentes categorías de Marco, lo que hace necesario etiquetar cada evento con Clase y Marco.

Construcción del Conjunto de Datos

Construimos el conjunto de datos LED muestreando conversaciones del conjunto DailyDialog, que incluye conversaciones sobre la vida diaria. Extraímos interacciones enfocándonos en varios temas cotidianos, asegurándonos de que nuestro conjunto de datos capture escenarios realistas con y sin eventos de vida.

Anotamos 2,186 eventos de vida únicos a partir de 4,485 enunciados, con una porción significativa siendo Eventos Implícitos. Se registró el estado de cada evento, incluyendo Polaridad (positivo o negativo), Modalidad (real o hipotética) y Tiempo (cuándo ocurrió el evento).

Desafíos y Limitaciones

Un desafío clave en nuestro trabajo es la naturaleza dinámica de las conversaciones. Muchos eventos pueden cambiar de significado o estado, dependiendo del contexto y curso del diálogo. Además, la dependencia de nuestro conjunto de datos de una fuente específica como DailyDialog podría limitar su aplicabilidad a otras formas de comunicación, como conversaciones multipartitas o diálogos más largos.

Aunque tenemos anotaciones detalladas, el tamaño del conjunto de datos puede no ser suficiente para los modelos hambrientos de datos de hoy en día. Nuestro objetivo es expandir nuestro conjunto de datos y anotaciones en futuros trabajos, incluyendo más tipos de conversaciones y abarcando una gama más amplia de eventos de vida.

Declaración de Ética

Nuestro conjunto de datos se desarrolló a partir de un conjunto de datos público existente, y la privacidad es una prioridad. Todos los hablantes en la versión original fueron anonimizados. Solo compartiremos las anotaciones de eventos de vida, asegurándonos de que la información personal permanezca protegida.

La investigación fue apoyada por varias subvenciones e instituciones, que facilitaron el proceso de anotación y desarrollo de este trabajo. Los anotadores fueron compensados equitativamente por sus esfuerzos, y todo el proceso tomó aproximadamente 1.5 meses para completarse.

Conclusión

Este trabajo presenta el conjunto de datos Life Event Dialog, un recurso completo para estudiar eventos de vida extraídos de datos conversacionales. Nuestra investigación destaca las características únicas de los eventos de vida conversacionales, enfatizando su naturaleza dinámica. Al introducir la tarea de Extracción de Eventos de Vida Conversacionales, buscamos avanzar en la comprensión y desarrollo de métodos para extraer efectivamente eventos de vida personales de conversaciones.

El trabajo futuro se centrará en refinar los métodos de extracción, mejorar el desempeño en la identificación de objetos y abordar desafíos con eventos implícitos. El objetivo es desarrollar un mejor modelo que pueda manejar las complejidades de la extracción de eventos de vida conversacionales mientras se expande el conjunto de datos para aplicaciones más amplias.

Fuente original

Título: LED: A Dataset for Life Event Extraction from Dialogs

Resumen: Lifelogging has gained more attention due to its wide applications, such as personalized recommendations or memory assistance. The issues of collecting and extracting personal life events have emerged. People often share their life experiences with others through conversations. However, extracting life events from conversations is rarely explored. In this paper, we present Life Event Dialog, a dataset containing fine-grained life event annotations on conversational data. In addition, we initiate a novel conversational life event extraction task and differentiate the task from the public event extraction or the life event extraction from other sources like microblogs. We explore three information extraction (IE) frameworks to address the conversational life event extraction task: OpenIE, relation extraction, and event extraction. A comprehensive empirical analysis of the three baselines is established. The results suggest that the current event extraction model still struggles with extracting life events from human daily conversations. Our proposed life event dialog dataset and in-depth analysis of IE frameworks will facilitate future research on life event extraction from conversations.

Autores: Yi-Pei Chen, An-Zi Yen, Hen-Hsen Huang, Hideki Nakayama, Hsin-Hsi Chen

Última actualización: 2023-04-17 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2304.08327

Fuente PDF: https://arxiv.org/pdf/2304.08327

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares