Un nuevo sistema para corregir afirmaciones científicas
Presentando un método para corregir afirmaciones científicas sin modelos de verificación.
― 6 minilectura
Tabla de contenidos
Con el auge de Internet, hay más información escrita disponible que nunca. Esto tiene sus beneficios, pero también trae desafíos. Mucho de lo que se comparte puede ser inexacto o engañoso. Encontrar una forma de comprobar y corregir automáticamente afirmaciones incorrectas podría ayudarnos mucho a manejar este problema. Los investigadores han avanzado en la verificación de afirmaciones fácticas, pero corregir afirmaciones incorrectas es mucho más difícil. Esto se debe en parte a que crear Conjuntos de datos para la Corrección de errores es muy caro.
La mayoría de los métodos para corregir afirmaciones dependen de un sistema de verificación robusto para guiar el proceso de corrección. Esto puede causar problemas, especialmente en áreas científicas donde puede que no existan buenos sistemas de verificación. En este trabajo, presentamos un nuevo sistema para corregir afirmaciones científicas que no necesita un verificador. Nuestro enfoque logra una mayor precisión que otros métodos probados en varios conjuntos de datos.
La necesidad de mejores métodos
La cantidad de contenido en línea ha aumentado, lo que lleva a más afirmaciones falsas. Esto es especialmente crucial en los campos científicos, donde la información inexacta puede tener consecuencias graves. A pesar de los esfuerzos por verificar las afirmaciones, corregirlas sigue siendo una tarea complicada. El costo de anotar manualmente datos para corregir afirmaciones incorrectas es extremadamente alto, dejando un vacío en los conjuntos de datos disponibles para esta tarea.
Los métodos de corrección actuales a menudo dependen de sistemas de verificación que funcionan bien para dominios como las noticias en lugar de afirmaciones científicas. Esto es un problema porque las afirmaciones científicas a menudo implican conceptos que requieren experiencia en el dominio. Muchos Modelos de verificación sólidos no funcionan bien en contextos científicos, lo que afecta el rendimiento de los sistemas de corrección de afirmaciones.
Nuestro enfoque
Presentamos un nuevo método que no depende de un modelo de verificación. Nuestro sistema funciona bien para afirmaciones científicas y genera un conjunto de datos rico usando modelos de lenguaje grandes (LLMs). Utilizamos conjuntos de datos de verificación existentes para crear un conjunto de datos de corrección de errores de alta calidad. Al corromper afirmaciones correctas en incorrectas, podemos aprender a mapear estas afirmaciones incorrectas de vuelta a sus versiones correctas. También proporcionamos explicaciones de por qué cada corrección es válida.
Generación de datos
El primer paso en nuestro método implica generar un conjunto de datos usando LLMs. Tomando afirmaciones y evidencia de conjuntos de datos existentes, podemos crear una variedad de afirmaciones incorrectas. Este paso es más fácil que corregir afirmaciones porque requiere menos comprensión de los detalles de la evidencia. Por ejemplo, a partir de una afirmación correcta, podemos crear fácilmente varias variaciones incorrectas, lo que nos permite generar un conjunto de datos más rico sin necesidad de mucho trabajo manual.
Entrenamiento del modelo de corrección
Con el nuevo conjunto de datos creado, entrenamos un modelo de generación condicional para vincular evidencia y afirmaciones incorrectas a sus versiones correctas. Este modelo aprende de las explicaciones generadas junto a las correcciones, dándole pistas sobre por qué las correcciones son precisas. Al hacer esto, creamos un sistema más adaptable que puede manejar una amplia gama de afirmaciones incorrectas.
Mejora de la calidad de la corrección
Para mejorar la calidad de las correcciones, implementamos un procedimiento de decodificación consciente de las afirmaciones. Este método ayuda a garantizar que la afirmación corregida no tenga el mismo significado que la afirmación incorrecta. Al evaluar las diferencias semánticas, nuestro sistema puede producir correcciones que no solo son precisas, sino también relevantes para la afirmación original.
Resultados
Evaluamos nuestro sistema en tres conjuntos de datos de afirmaciones científicas: SciFact, SciFact-Open y CovidFact. Nuestro método alcanzó precisiones de corrección de 84%, 77% y 72% en estos conjuntos de datos, respectivamente. En comparación con los métodos existentes, que produjeron precisiones significativamente más bajas, es claro que nuestro enfoque destaca.
Comparación con otros métodos
Nuestro sistema superó a otros modelos, incluyendo el uso de GPT-3.5, que solo alcanzó precisiones de corrección de 58%, 61% y 64% en los mismos conjuntos de datos. Estos resultados demuestran la efectividad de nuestro nuevo método, incluso en comparación con algunos de los LLMs más recientes en el campo.
Entendiendo el rendimiento
El rendimiento de nuestro método se puede atribuir a su diseño, que no depende de un modelo de verificación sólido. En cambio, nos enfocamos en generar un conjunto de datos bien anotado utilizando explicaciones. Esto permite al modelo aprender de una manera que los métodos más tradicionales no pueden lograr. Nuestro enfoque nos da una herramienta que puede adaptarse y funcionar bien en el ámbito científico.
Limitaciones de los métodos actuales
Los métodos actuales para la corrección de afirmaciones fácticas a menudo dependen en gran medida de la calidad de los modelos de verificación que utilizan. Si un modelo de verificación no se adapta bien a un dominio particular, los resultados de la corrección de afirmaciones probablemente serán bajos. Muchos de los métodos existentes funcionan mejor con conjuntos de datos bien estudiados pero no se traducen efectivamente en áreas menos populares como las afirmaciones científicas.
Direcciones futuras
Aunque nuestro método muestra resultados prometedores, todavía hay áreas para mejorar. El trabajo futuro podría involucrar la integración de un modelo de verificación en nuestro sistema de una manera que mejore el rendimiento sin comprometer la independencia del proceso de corrección de afirmaciones. Además, explorar cómo sacar partido a las afirmaciones soportadas de los conjuntos de datos podría llevar a mejores resultados.
Además, mejorar la ingeniería de prompts utilizada para la generación de conjuntos de datos y mejorar los modelos de diferencia semántica podría ayudar a refinar el proceso.
Conclusión
Nuestro trabajo presenta una nueva perspectiva sobre la corrección de afirmaciones científicas sin necesidad de un potente modelo de verificación. Hemos demostrado que al aprovechar conjuntos de datos existentes y usar LLMs de manera efectiva, podemos crear un conjunto de datos rico para el entrenamiento y lograr altas precisiones de corrección. Nuestro método no solo supera los puntos de referencia existentes, sino que también mejora el enfoque general para la corrección de afirmaciones en el ámbito científico. Esto sienta las bases para futuros desarrollos en el campo, convirtiéndolo en un recurso valioso en la búsqueda de información precisa.
Título: SciFix: Outperforming GPT3 on Scientific Factual Error Correction
Resumen: Due to the prohibitively high cost of creating error correction datasets, most Factual Claim Correction methods rely on a powerful verification model to guide the correction process. This leads to a significant drop in performance in domains like scientific claims, where good verification models do not always exist. In this work, we introduce SciFix, a scientific claim correction system that does not require a verifier but can outperform existing methods by a considerable margin -- achieving correction accuracy of 84% on the SciFact dataset, 77% on SciFact-Open and 72% on the CovidFact dataset, compared to next best accuracies of 7%, 5%, and 15% on the same datasets respectively. Our method leverages the power of prompting with LLMs during training to create a richly annotated dataset that can be used for fully supervised training and regularization. We additionally use a claim-aware decoding procedure to improve the quality of corrected claims. Our method outperforms the very LLM that was used to generate the annotated dataset -- with Few-Shot Prompting on GPT3.5 achieving 58%, 61%, and 64% on the respective datasets, a consistently lower correction accuracy, despite using nearly 800 times as many parameters as our model.
Autores: Dhananjay Ashok, Atharva Kulkarni, Hai Pham, Barnabás Póczos
Última actualización: 2023-10-12 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2305.14707
Fuente PDF: https://arxiv.org/pdf/2305.14707
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.