Abordando la desinformación a través de fuentes expertas
Un nuevo conjunto de datos ayuda a los periodistas a encontrar expertos creíbles para un reportaje preciso.
― 10 minilectura
Tabla de contenidos
- El Reto de Encontrar Expertos
- Extracción de Citas y Comprensión de Sus Fuentes
- La Necesidad de un Nuevo Conjunto de Datos
- Metodología para Crear el Conjunto de Datos NewsQuote
- Filtrando Fuentes y Citas
- Tipos de Citas en el Conjunto de Datos
- Definiciones de Tareas
- Enfoques para Extraer Citas
- Enfoques de Recomendación de Expertos
- Resultados de la Investigación
- Direcciones Futuras
- Conclusión
- Fuente original
- Enlaces de referencia
En los últimos años, la desinformación ha crecido rápido, causando mucha preocupación entre grupos como investigadores, periodistas y organizaciones que chequean hechos. Este aumento en la información falsa ha hecho que muchos se den cuenta de la necesidad de mejores herramientas y métodos para ayudar a verificar hechos y evidencias. Los investigadores han estado buscando maneras de usar tecnología y procesamiento de lenguaje para que este trabajo sea más fácil. Sin embargo, la mayoría de los métodos existentes se enfocan en reunir documentos para verificar afirmaciones, en lugar de encontrar Expertos confiables que también puedan dar información valiosa.
Resulta que algunos verificadores de hechos prefieren enfocarse en encontrar expertos creíbles para citar, en vez de simplemente depender de documentos. Este enfoque puede ser complicado, ya que los periodistas y verificadores a menudo necesitan hablar con varios expertos para tener una visión equilibrada sobre un tema. Para abordar esta creciente necesidad, se necesita una nueva herramienta que ayude a encontrar expertos basándose en sus declaraciones pasadas en artículos de noticias.
El Reto de Encontrar Expertos
Encontrar expertos confiables no es tarea fácil. Los periodistas y verificadores a menudo enfrentan el desafío de encontrar múltiples fuentes para asegurarse de que la información que proporcionan sea creíble. No pueden simplemente apoyarse en la opinión o declaración de una sola persona. En situaciones donde las afirmaciones pueden ser controversiales, es importante tener una visión balanceada. Por eso, se necesita ayudar a periodistas y verificadores a buscar expertos basándose en su historial de Citas en artículos de noticias confiables.
Para satisfacer esta necesidad, es necesario extraer automáticamente citas y sus fuentes de los artículos. Luego, basándose en estas citas, el sistema debería ser capaz de sugerir una lista de expertos relevantes que los periodistas puedan contactar para obtener más información. Esto se puede dividir en dos tareas principales: extraer citas y encontrar expertos.
Extracción de Citas y Comprensión de Sus Fuentes
La extracción de citas y atribución implica identificar fuentes, extraer las citas reales y vincular esas citas de vuelta a sus fuentes. La mayoría de los Conjuntos de datos usados para esta tarea se crearon a partir de literatura y tienen un tamaño limitado porque dependieron mucho del trabajo manual. En contraste, los artículos de noticias a menudo contienen mucho menos diálogo directo y monólogos en comparación con la ficción, lo que hace que sea más complejo extraer citas.
Intentos anteriores de extraer citas han dependido de reglas y patrones específicos, que son limitantes. A diferencia de los textos de ficción, las personas citadas en los artículos de noticias pueden variar bastante, y la naturaleza rápida de las noticias significa que los estilos de escritura también cambian con frecuencia. Esto hace difícil depender solo de patrones estándar para encontrar citas.
La Necesidad de un Nuevo Conjunto de Datos
Para llevar a cabo esta tarea, los investigadores crearon un nuevo conjunto de datos llamado NewsQuote. Contiene un número significativo de pares de citas y fuentes tomadas de una colección de artículos de noticias centrados en COVID-19. Este conjunto de datos incluye más de 24,000 pares de citas y sus oradores, proporcionando un recurso rico para aquellos que buscan encontrar expertos basándose en citas.
El conjunto de datos se construyó a partir de un gran conjunto de artículos de noticias que se publicaron durante el auge de la pandemia. Los investigadores usaron técnicas avanzadas de procesamiento de lenguaje para extraer automáticamente las citas y sus fuentes, haciendo el proceso mucho más eficiente que antes.
Metodología para Crear el Conjunto de Datos NewsQuote
Para crear el conjunto de datos NewsQuote, los investigadores se basaron en una fuente de datos específica que presentaba artículos de noticias. Usaron una API de noticias avanzada para reunir artículos junto con sus metadatos, como quién los escribió y cuándo se publicaron. Hubo muchos artículos que se publicaron a lo largo de varios meses, lo que dio a los investigadores una amplia variedad de material para trabajar.
Luego, necesitaron asegurarse de que el conjunto de datos estuviera libre de duplicados. Usaron un clasificador de aprendizaje automático para identificar y eliminar artículos duplicados. Esto ayudó a crear un conjunto de datos limpio con un total de más de 158,000 artículos únicos de noticias de los que extraer información.
Una vez que se eliminaron los duplicados, los investigadores profundizaron en los artículos para extraer citas. Identificaron una lista de verbos de acción clave que generalmente indican una cita, como "dijo" o "afirmó". Después de establecer estas palabras clave, filtraron las oraciones para conservar solo aquellas que contenían citas y sus fuentes correspondientes.
Filtrando Fuentes y Citas
El equipo de investigación también tuvo que asegurarse de que las fuentes de las citas fueran individuos u organizaciones, y lo hicieron usando una base de datos externa para categorizar fuentes. Eliminando cualquier referencia a ubicaciones o países, mantuvieron el enfoque en personas u organizaciones creíbles.
Para crear un conjunto de datos efectivo, dividieron los datos limpios en conjuntos de entrenamiento y prueba según cuándo se publicaron los artículos. Esto aseguraba que las citas que se estaban probando ya se hubieran publicado antes, permitiendo una mejor evaluación del proceso de recomendación de expertos.
Tipos de Citas en el Conjunto de Datos
El conjunto de datos final consiste en tres tipos diferentes de citas: citas directas, citas indirectas y citas mixtas. Las citas directas son aquellas que están dentro de comillas, mientras que las citas indirectas son parafraseadas. Las citas mixtas tienen solo parte de la cita dentro de comillas. Al incluir diferentes tipos de citas, los investigadores buscaban crear un conjunto de datos bien equilibrado que pudiera ayudar en el desarrollo de herramientas para extraer citas de manera más efectiva.
En total, el conjunto de datos comprende más de 24,000 pares de citas y fuentes de diversas fuentes creíbles, lo que lo convierte en un recurso valioso para periodistas e investigadores. La diversidad de las citas ayudará a impulsar la investigación en esta área.
Definiciones de Tareas
Los investigadores definieron dos tareas clave para el conjunto de datos. Primero, la extracción de pares de citas y fuentes de contextos dados en los artículos. Esta tarea implica identificar tanto la fuente de una cita como la cita misma. La segunda tarea se centra en recomendar expertos basándose en lo que han dicho en el pasado, lo cual es crucial para los periodistas que buscan proporcionar información precisa y bien equilibrada.
Enfoques para Extraer Citas
Los investigadores exploraron tres enfoques principales para extraer citas y sus fuentes del conjunto de datos:
Enfoque Basado en Reglas: Este enfoque utiliza reglas específicas para extraer citas directas usando patrones lingüísticos establecidos. Sin embargo, se encontró que era limitado en su capacidad, ya que a menudo no podía reconocer citas indirectas.
Etiquetado de Secuencias: Este método implica etiquetar cada palabra en el texto usando un sistema de etiquetado específico. Esto permite que modelos avanzados identifiquen y extraigan citas y fuentes más nítidamente.
Pipeline de Pregunta-Respuesta: Este enfoque innovador utiliza un sistema de preguntas y respuestas para extraer citas. Al hacer preguntas específicas basadas en el contexto de los artículos, identifica tanto la fuente como la cita de manera efectiva.
Entre estos enfoques, el pipeline de preguntas y respuestas mostró los mejores resultados en la identificación tanto de fuentes como de citas. Logró una alta tasa de éxito en la extracción de la información relevante necesaria.
Enfoques de Recomendación de Expertos
Cuando se trata de encontrar expertos, se exploraron dos enfoques principales: recuperación de documentos y recuperación de expertos.
Recuperación de Documentos: Este método implica recuperar documentos que contengan citas relevantes basadas en una consulta dada. Las fuentes de esas citas se extraen luego de los documentos recuperados. Este enfoque aprovecha el contexto que rodea las citas para encontrar las mejores coincidencias.
Recuperación de Expertos: En lugar de depender de documentos, este método recupera expertos directamente basándose en la probabilidad de que comenten sobre un tema dado. Esto se hace calculando la probabilidad de que un experto pueda abordar la consulta basándose en citas previas.
Se encontró que el enfoque de recuperación de documentos generalmente tuvo un mejor desempeño que la recuperación de expertos en identificar a los expertos correctos para las consultas.
Resultados de la Investigación
La investigación demostró resultados prometedores basados en los diferentes enfoques tomados tanto para la extracción de citas como para la recomendación de expertos. El pipeline de preguntas y respuestas tuvo un rendimiento excepcional, logrando una alta precisión en la identificación de fuentes y extracción de citas.
De manera similar, el enfoque de recuperación de documentos dio los mejores resultados al recomendar expertos. Se utilizaron varias métricas para evaluar el rendimiento, mostrando la efectividad de los métodos aplicados en el estudio.
Direcciones Futuras
Hay varias áreas donde el trabajo futuro puede construir sobre esta investigación. Por un lado, el conjunto de datos podría expandirse más allá del enfoque específico en COVID-19 para incluir una gama más amplia de temas como negocios, educación y política. Esto permitiría un enfoque más integral para la identificación de expertos.
Otra área de mejora es la identificación automática de palabras clave de citas. Aunque se estableció una lista sólida, algunos verbos pueden haber sido pasados por alto o malinterpretados. La investigación futura puede explorar el uso de corpora más grandes para desarrollar un modelo más robusto para identificar estas palabras.
Además, desarrollar métodos para resolver referencias a fuentes mencionadas anteriormente, como pronombres, podría mejorar significativamente la precisión de las atribuciones de citas y fuentes.
La integración de conocimiento externo también podría fortalecer el proceso de recomendación de expertos, proporcionando más contexto y credibilidad a las fuentes identificadas.
Por último, es esencial asegurar que los periodistas y verificadores de hechos no dependan en exceso de sistemas automatizados, manteniendo la integridad e independencia de su trabajo. Las herramientas desarrolladas deberían asistir su trabajo sin opacar su experiencia en la verificación de información.
Conclusión
En conclusión, la investigación destaca la creciente necesidad de herramientas efectivas en el ámbito del periodismo y la verificación de hechos. El recién creado conjunto de datos NewsQuote proporciona un recurso integral para extraer citas e identificar expertos. Al explorar metodologías avanzadas, la investigación demuestra el potencial de la tecnología para apoyar esfuerzos en la verificación de hechos y encontrar voces creíbles en los medios. Los hallazgos fomentan una mayor investigación y mejora en estas áreas, beneficiando en última instancia a quienes están involucrados en el periodismo y la verificación de información.
Título: NewsQuote: A Dataset Built on Quote Extraction and Attribution for Expert Recommendation in Fact-Checking
Resumen: To enhance the ability to find credible evidence in news articles, we propose a novel task of expert recommendation, which aims to identify trustworthy experts on a specific news topic. To achieve the aim, we describe the construction of a novel NewsQuote dataset consisting of 24,031 quote-speaker pairs that appeared on a COVID-19 news corpus. We demonstrate an automatic pipeline for speaker and quote extraction via a BERT-based Question Answering model. Then, we formulate expert recommendations as document retrieval task by retrieving relevant quotes first as an intermediate step for expert identification, and expert retrieval by directly retrieving sources based on the probability of a query conditional on a candidate expert. Experimental results on NewsQuote show that document retrieval is more effective in identifying relevant experts for a given news topic compared to expert retrieval
Autores: Wenjia Zhang, Lin Gui, Rob Procter, Yulan He
Última actualización: 2023-05-05 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2305.04825
Fuente PDF: https://arxiv.org/pdf/2305.04825
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://github.com/WenjiaZh/NewsQuote
- https://aylien.com/resources/datasets/coronavirus-dataset
- https://aylien.com/blog/free-coronavirus-news-dataset
- https://www.dbpedia.org/
- https://aylien.com/product/news-api
- https://www.iab.com
- https://iptc.org/standards/newscodes/
- https://huggingface.co/vslaykovsky/roberta-news-duplicates
- https://github.com/WenjiaZh/NewsQuote/blob/main/SelectedTriggerVerbs.csv
- https://mappings.dbpedia.org/server/ontology/classes/
- https://github.com/WenjiaZh/NewsQuote/blob/main/SelectedOntologyClasses.txt
- https://stanfordnlp.github.io/CoreNLP/quote.html
- https://github.com/castorini/pyserini
- https://www