Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje

Presentamos IfQA: Un Nuevo Conjunto de Datos para el Razonamiento Contrafactual en QA

IfQA ofrece más de 3,800 preguntas contrafactuales para desafiar la respuesta a preguntas de dominio abierto.

― 8 minilectura


IfQA: Conjunto de DatosIfQA: Conjunto de Datosde PreguntasContrafactualescontrafactual.IA con preguntas de razonamientoUn conjunto de datos para desafiar a la
Tabla de contenidos

El Razonamiento contrafactual es una habilidad importante en la inteligencia que implica pensar en lo que podría haber sucedido de forma diferente bajo otras circunstancias. Sin embargo, no ha habido un gran conjunto de datos específicamente diseñado para la respuesta a Preguntas en Dominio abierto (QA) que se centre en este tipo de razonamiento. Para llenar este vacío, presentamos el conjunto de datos IfQA, que consiste en preguntas basadas en situaciones hipotéticas usando cláusulas de "si".

Entendiendo las Preguntas Contrafactuales

Por ejemplo, considera la pregunta: "Si Los Ángeles estuviera en la costa este de EE.UU., ¿cuál sería la diferencia horaria entre Los Ángeles y París?" Esta pregunta requiere más que solo conocimiento factual; pide al encUESTADO que piense en una situación contraria a los hechos conocidos. Responder a estas preguntas implica recuperar información de fuentes confiables, como Wikipedia, y razonar sobre este escenario imaginado.

El conjunto de datos IfQA incluye más de 3,800 preguntas que han sido creadas y verificadas por trabajadores. Pruebas iniciales muestran que este conjunto de datos es bastante desafiante para los métodos de QA en dominio abierto existentes. Los modelos actuales luchan por desempeñarse bien ante las demandas únicas del razonamiento contrafactual.

La Necesidad del Razonamiento Contrafactual

El razonamiento contrafactual refleja nuestra capacidad para pensar en varios resultados de eventos pasados, especialmente aquellos que realmente no sucedieron. Es un elemento vital que los investigadores creen que debe ser parte de cualquier sistema de IA avanzado. Sin embargo, no han estado disponibles muchos recursos para evaluar qué tan bien pueden manejar diferentes modelos el razonamiento contrafactual en la respuesta a preguntas en dominio abierto.

La mayoría de los métodos existentes para QA en dominio abierto se centran en preguntas simples y fácticas, como "¿Cuál era la ocupación de Lovely Rita según la canción de los Beatles?" Este tipo de preguntas se pueden responder utilizando información fácilmente disponible en Internet.

Cuando consideramos preguntas contrafactuales, encontramos una capa diferente de complejidad. Este tipo de razonamiento a menudo requiere un cambio en la comprensión de una situación basada en escenarios hipotéticos, mientras se tiene en cuenta lo que sabemos sobre la realidad. Para responder a preguntas basadas en suposiciones contrafactuales, los modelos deben ir más allá de solo recuperar hechos.

Estructura del Conjunto de Datos IfQA

El conjunto de datos IfQA está estructurado de tal manera que cada pregunta se basa en una afirmación contrafactual introducida por una cláusula de "si". Para responder a estas preguntas, un modelo debe primero encontrar hechos relevantes de fuentes como Wikipedia. Luego, tiene que pensar a través del razonamiento contrafactual para llegar a una respuesta correcta.

Aunque algunas investigaciones anteriores han intentado lidiar con escenarios contrafactuales, ninguna ha construido un estándar dedicado para evaluar el razonamiento contrafactual en situaciones de QA en dominio abierto. Para abordar esta brecha, creamos el conjunto de datos IfQA, que desafía a los métodos existentes a mejorar en términos de recuperación y razonamiento.

Recopilación del Conjunto de Datos IfQA

Las preguntas y respuestas en el conjunto de datos IfQA se recopilaron usando Amazon Mechanical Turk, una plataforma donde los trabajadores pueden completar tareas a cambio de pago. Para asegurar una variedad de preguntas, limitamos a cada trabajador a 30 preguntas. En total, 188 trabajadores diferentes contribuyeron al conjunto de datos.

El proceso para crear el conjunto de datos implica tres etapas principales. Primero, se extrajeron pasajes relevantes de Wikipedia. A continuación, se pidió a los trabajadores que crearan preguntas que requerían razonamiento contrafactual basado en esos pasajes. Por último, validamos la calidad y corrección de las preguntas y respuestas a través de verificaciones adicionales.

Pasos en la Recolección de Datos

  1. Selección de Pasajes: Filtramos pasajes de Wikipedia para identificar aquellos relacionados con eventos causales usando palabras clave específicas. Este enfoque nos ayudó a reunir pasajes que eran adecuados para crear preguntas contrafactuales.

  2. Anotación de Preguntas: Se dieron pasajes aleatorios a los trabajadores y se les pidió que idearan preguntas. Proporcionamos ejemplos iniciales para guiarlos, pero luego permitimos más flexibilidad para evitar prejuicios por los ejemplos. Los trabajadores también tuvieron la opción de crear sus propias preguntas basadas en el material proporcionado.

  3. Anotación de Respuestas: Después de generar las preguntas, los trabajadores tuvieron que proporcionar respuestas. Se ofrecieron cajas adicionales para que incluyeran cualquier otra respuesta válida que pudieran pensar.

Verificación de Preguntas y Respuestas

Para asegurar respuestas de alta calidad, cada pregunta fue evaluada por su legibilidad, claridad y corrección. Hicimos tres preguntas principales durante este proceso de verificación:

  • ¿Es la pregunta clara y relacionada con el pasaje?
  • ¿La pregunta requiere el pasaje para contexto?
  • ¿Es correcta la respuesta proporcionada?

A través de este método, buscamos filtrar cualquier pregunta mal construida o respuestas incorrectas.

Análisis del Conjunto de Datos IfQA

El conjunto de datos IfQA contiene una variedad de tipos de preguntas, que se pueden categorizar principalmente de la siguiente manera:

  1. Entidades: 49.7%
  2. Fechas: 14.5%
  3. Números: 15.9%
  4. Otros: 19.9%

La longitud promedio de las respuestas en IfQA es de aproximadamente 1.8 palabras, lo cual es similar a otros estándares de QA. En cuanto a los tipos de preguntas, la mayoría comienzan con "qué" (51.7%), seguidas de "quién" (14.6%) y otros tipos, con la longitud promedio de la pregunta siendo de 22.2 palabras.

En el conjunto de datos, el 75.1% de las respuestas se extraen de los pasajes proporcionados, mientras que el resto requiere razonamiento matemático o combina varios fragmentos de texto para la respuesta. Curiosamente, algunas preguntas pueden tener más de una respuesta válida, pero esta situación ocurre solo en el 11.2% de los casos.

Pruebas del Conjunto de Datos IfQA

Creamos dos divisiones distintas del conjunto de datos IfQA. La primera está dedicada al aprendizaje supervisado tradicional, mientras que la segunda es para el aprendizaje de pocos ejemplos, lo que nos permite evaluar el rendimiento del modelo bajo diferentes condiciones.

El corpus de recuperación utilizado para este conjunto de datos proviene de Wikipedia, que fue procesado para extraer pasajes más pequeños para un acceso más fácil. Las comparaciones mostraron que los modelos de libro cerrado, que no dependen de información externa, tuvieron un mal desempeño en comparación con los modelos de libro abierto que podían acceder a Wikipedia.

Desafíos en la Recuperación

Recuperar información en IfQA es notablemente difícil. Tanto los métodos de recuperación tradicionales como los densos enfrentaron desafíos significativos debido a la complejidad del razonamiento contrafactual. En muchos casos, las preguntas eran más largas de lo que la mayoría de los modelos de recuperación existentes están diseñados para manejar, lo que dificulta la búsqueda de pasajes precisos.

Además, la naturaleza específica de las preguntas contrafactuales a menudo significa que los documentos relevantes no contienen las palabras exactas que se encuentran en la pregunta. Por lo tanto, la recuperación basada únicamente en la coincidencia de palabras tiene limitaciones.

Desafíos de Lectura y Razonamiento

Una vez que se recuperan los documentos relevantes, el siguiente paso es derivar la respuesta, lo cual también presenta desafíos. Los modelos actuales, incluidos los de mejor rendimiento, tienen dificultades con el razonamiento requerido para conectar los hechos recuperados con situaciones hipotéticas.

Incluso los modelos de última generación no logran obtener resultados satisfactorios en IfQA porque necesitan aplicar razonamientos complejos, especialmente para escenarios que requieren respuestas numéricas. La investigación muestra que combinar recuperación y razonamiento mejora enormemente el rendimiento general en estos tipos de preguntas.

Conclusión

En resumen, IfQA introduce un nuevo conjunto de desafíos para QA en dominio abierto al centrarse en el razonamiento contrafactual. Con más de 3,800 preguntas únicas, el conjunto de datos empuja los límites de lo que los métodos actuales pueden lograr en recuperación y razonamiento. A pesar de sus desafíos, IfQA tiene como objetivo avanzar en la investigación en QA en dominio abierto y fomentar mejores modelos para abordar tareas de razonamiento complejas.

El conjunto de datos tiene ciertas limitaciones, principalmente que solo es aplicable a preguntas basadas en eventos. La recolección de datos se basó en gran medida en la entrada humana, lo que puede introducir sesgos. A medida que este campo evoluciona, la visión sigue siendo clara: construir modelos más avanzados capaces de entender y procesar razonamientos complejos basados en escenarios hipotéticos.

Fuente original

Título: IfQA: A Dataset for Open-domain Question Answering under Counterfactual Presuppositions

Resumen: Although counterfactual reasoning is a fundamental aspect of intelligence, the lack of large-scale counterfactual open-domain question-answering (QA) benchmarks makes it difficult to evaluate and improve models on this ability. To address this void, we introduce the first such dataset, named IfQA, where each question is based on a counterfactual presupposition via an "if" clause. For example, if Los Angeles was on the east coast of the U.S., what would be the time difference between Los Angeles and Paris? Such questions require models to go beyond retrieving direct factual knowledge from the Web: they must identify the right information to retrieve and reason about an imagined situation that may even go against the facts built into their parameters. The IfQA dataset contains over 3,800 questions that were annotated annotated by crowdworkers on relevant Wikipedia passages. Empirical analysis reveals that the IfQA dataset is highly challenging for existing open-domain QA methods, including supervised retrieve-then-read pipeline methods (EM score 36.2), as well as recent few-shot approaches such as chain-of-thought prompting with GPT-3 (EM score 27.4). The unique challenges posed by the IfQA benchmark will push open-domain QA research on both retrieval and counterfactual reasoning fronts.

Autores: Wenhao Yu, Meng Jiang, Peter Clark, Ashish Sabharwal

Última actualización: 2023-05-23 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2305.14010

Fuente PDF: https://arxiv.org/pdf/2305.14010

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares