El reto de la verificación de hechos multimodal
Abordando la necesidad de una verificación de hechos efectiva en diferentes formatos de contenido.
― 8 minilectura
Tabla de contenidos
- La necesidad de la verificación multimodal
- Estructura de la verificación multimodal
- Detección y extracción de afirmaciones
- Recuperación de evidencia
- Predicción del veredicto y producción de justificaciones
- Por qué importa la verificación multimodal
- Aplicaciones en el mundo real de la verificación multimodal
- Desafíos actuales en la verificación multimodal
- Direcciones futuras para la mejora
- Conclusión
- Fuente original
- Enlaces de referencia
La Desinformación es información falsa que puede difundirse rápidamente, especialmente cuando combina diferentes tipos de contenido, como imágenes, audio y videos. Este tipo de desinformación suele verse como más creíble que solo el texto, lo que lo convierte en un gran problema en el mundo de los medios hoy en día. Aunque ha habido mucha investigación sobre la verificación automatizada de hechos, la mayoría se ha centrado solo en la desinformación basada en texto. Este artículo analiza cómo puede funcionar mejor la verificación de hechos para todo tipo de contenido, no solo texto.
La necesidad de la verificación multimodal
La desinformación suele aparecer en diferentes formatos. Por ejemplo, una noticia falsa puede incluir una imagen engañosa o un video que tergiversa algo. Debido a que la gente tiende a confiar más en estos formatos mixtos, es importante desarrollar formas de verificar hechos en todos los tipos de contenido.
Podemos ver ejemplos de donde la desinformación ha tomado varias formas. Esto incluye imágenes alteradas para torcer la verdad o videos sacados de contexto para apoyar afirmaciones falsas. Un caso bien conocido fue una imagen manipulada que falsamente mostraba a una figura política siendo arrestada.
Para luchar realmente contra la desinformación, es crucial identificar las afirmaciones hechas en estos formatos mixtos. La verificación de hechos automatizada también debe adaptarse a diferentes tipos de contenido y entender cómo funcionan juntos.
Estructura de la verificación multimodal
El proceso de verificar hechos en diferentes tipos de contenido se puede desglosar en tres pasos principales:
Detección y extracción de afirmaciones: Este paso implica encontrar e identificar afirmaciones creíbles de varios tipos de contenido. El objetivo es centrarse en afirmaciones que se puedan verificar y que podrían causar daño.
Recuperación de evidencia: Después de detectar una afirmación, el siguiente paso es reunir evidencia para verificar su exactitud. Esto podría incluir encontrar imágenes, videos o texto que se relacionen con la afirmación.
Predicción del veredicto y producción de justificaciones: Finalmente, después de examinar la evidencia, el sistema debe decidir si la afirmación es verdadera o falsa y explicar la razon detrás de esa decisión.
Detección y extracción de afirmaciones
En el primer paso, buscamos identificar afirmaciones que se puedan verificar. Estas afirmaciones pueden provenir de texto escrito, imágenes o audio y pueden pertenecer a diferentes categorías. Por ejemplo, una afirmación podría afirmar la autenticidad de una foto o declarar que un video fue grabado en un lugar específico.
Para extraer estas afirmaciones de manera efectiva, a menudo necesitamos analizar múltiples tipos de datos juntos. Por ejemplo, si se encuentra una afirmación en una imagen, sería necesario extraer el texto de esa imagen para verificarlo. Aquí es donde entran en juego herramientas como el Reconocimiento Óptico de Caracteres (OCR). El OCR puede ayudar a identificar texto dentro de imágenes, facilitando la búsqueda de afirmaciones que necesitan ser verificadas.
Recuperación de evidencia
Una vez que se han detectado afirmaciones, el siguiente paso es reunir evidencia para evaluarlas. Este proceso difiere para varios tipos de contenido. Por ejemplo, las afirmaciones de texto se pueden verificar buscando información adicional en línea. Sin embargo, para las afirmaciones que involucran imágenes o videos, la tarea se vuelve más complicada.
En la verificación multimodal, la evidencia puede provenir de diferentes fuentes. Por ejemplo, al verificar una afirmación de video, uno podría mirar publicaciones relacionadas en redes sociales o recuperar metadatos asociados con el video. Este paso es crucial para tomar decisiones informadas sobre la validez de las afirmaciones.
Predicción del veredicto y producción de justificaciones
Esta etapa final se centra en decidir si la afirmación es verdadera o falsa basada en la evidencia revisada. Esto implica desglosar la predicción en tres tareas específicas:
Clasificación de manipulación: Esta tarea se centra en identificar si el contenido ha sido alterado de manera que engañe a los espectadores.
Clasificación fuera de contexto: A menudo, el contenido puede ser tergiversado sacándolo de su contexto original. Esta tarea busca determinar si el contenido ha sido usado de manera engañosa.
Clasificación de veracidad: Esto analiza la veracidad de la afirmación en relación con la evidencia recopilada.
Después de tomar una decisión, es esencial explicarla claramente. Las justificaciones son importantes porque ayudan a las personas a entender por qué una afirmación fue considerada verdadera o falsa.
Por qué importa la verificación multimodal
Hay varias razones por las que verificar hechos en diferentes tipos de contenido es importante. Primero, el contenido mixto a menudo se percibe como más creíble que el contenido solo de texto. La investigación ha demostrado que la gente es más propensa a creer una afirmación si está respaldada por imágenes o videos, incluso si esos visuales son engañosos.
En segundo lugar, las investigaciones han indicado que la desinformación que incluye imágenes o videos tiende a difundirse más rápido en plataformas de redes sociales. Este aumento en el compromiso hace que sea importante desarrollar métodos de verificación efectivos que puedan manejar varios formatos.
Por último, los avances en el aprendizaje automático ahora facilitan la producción y difusión de contenido manipulado. Esto significa que la desinformación puede generarse y esparcirse rápidamente, subrayando la necesidad de enfoques de verificación de hechos mejorados.
Aplicaciones en el mundo real de la verificación multimodal
La necesidad de verificación multimodal es evidente en varios casos de desinformación que han surgido en los últimos años. Por ejemplo, durante las campañas políticas, las imágenes pueden ser editadas para distorsionar la realidad, y los videos pueden ser sacados de contexto, llevando a un malentendido público.
Los sistemas de verificación de hechos automatizados equipados con la capacidad de analizar formatos mixtos pueden desempeñar un papel crítico en la identificación y abordaje de estos problemas. Al centrarse en una afirmación y examinarla a través de múltiples modalidades, podemos evaluar mejor su veracidad.
Desafíos actuales en la verificación multimodal
A pesar de la importancia de la verificación multimodal, todavía hay desafíos. Un problema principal es la extracción de afirmaciones de contenido mixto. Este proceso necesita volverse más refinado, particularmente al tratar con datos complejos o visuales.
Otro desafío es la recuperación de evidencia. A diferencia de las afirmaciones de texto, que a menudo pueden verificarse con una simple búsqueda en línea, encontrar evidencia para afirmaciones de audio o video puede ser mucho más difícil. Hay menos herramientas disponibles para buscar este tipo de contenido, lo que dificulta que los verificadores de hechos encuentren datos de apoyo.
Direcciones futuras para la mejora
Para mejorar la verificación multimodal, hay varias áreas que necesitan más exploración:
Desarrollar mejores técnicas de extracción: Necesitamos métodos mejorados para extraer afirmaciones de varios tipos de contenido multimedia. Esto incluye trabajar con datos visuales complejos como infografías y fotogramas de video.
Estrategias mejoradas para la recuperación de evidencia: Hay una necesidad de mejores herramientas que puedan ayudar a encontrar evidencia para afirmaciones de audio o video. Los métodos actuales suelen ser limitados, y más avances en esta área podrían conducir a mejoras significativas.
Abordar problemas multilingües y multimodales: Muchos sistemas de verificación automatizada de hechos solo se centran en contenido en inglés. Es crucial crear sistemas que puedan trabajar con múltiples idiomas y adaptarse a las diferentes matices que se encuentran en varias culturas.
Mejorar la explicabilidad en la verificación de hechos: Se necesita más enfoque en producir justificaciones comprensibles que aclaren por qué una afirmación fue considerada verdadera o falsa. Esto ayudaría a los usuarios a comprender mejor el proceso de verificación de hechos.
Utilizar modelos generativos para justificaciones: Nuevas tecnologías que pueden generar y editar imágenes podrían usarse para apoyar las explicaciones de ciertas afirmaciones, haciendo que el proceso de verificación sea aún más claro.
Conclusión
A medida que la desinformación continúa propagándose, desarrollar métodos efectivos para la verificación multimodal se vuelve cada vez más importante. Al centrarnos en las afirmaciones a través de varios tipos de contenido, podemos trabajar hacia un sistema que esté mejor equipado para combatir información falsa.
Si bien existen desafíos, la exploración continua de tecnologías y metodologías en este campo tiene un gran potencial. Al mejorar nuestro enfoque hacia la verificación de hechos, podemos ayudar a garantizar que el público reciba información precisa y que la desinformación sea abordada adecuadamente.
Título: Multimodal Automated Fact-Checking: A Survey
Resumen: Misinformation is often conveyed in multiple modalities, e.g. a miscaptioned image. Multimodal misinformation is perceived as more credible by humans, and spreads faster than its text-only counterparts. While an increasing body of research investigates automated fact-checking (AFC), previous surveys mostly focus on text. In this survey, we conceptualise a framework for AFC including subtasks unique to multimodal misinformation. Furthermore, we discuss related terms used in different communities and map them to our framework. We focus on four modalities prevalent in real-world fact-checking: text, image, audio, and video. We survey benchmarks and models, and discuss limitations and promising directions for future research
Autores: Mubashara Akhtar, Michael Schlichtkrull, Zhijiang Guo, Oana Cocarascu, Elena Simperl, Andreas Vlachos
Última actualización: 2023-10-25 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2305.13507
Fuente PDF: https://arxiv.org/pdf/2305.13507
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.bbc.com/news/world-us-canada-65069316
- https://www.itv.com/news/2019-01-18/boris-johnson-under-attack-over-turkey-claim/
- https://www.opendemocracy.net/en/dark-money-investigations/truly-project-hate-third-scandal-of-official-vote-leave-campaign-headed-by-/
- https://toolbox.google.com/factcheck/apis
- https://github.com/MichSchli/AVeriTeC
- https://github.com/Cartus/Automated-Fact-Checking-Resources
- https://cdn2.opendemocracy.net/media/images/Vote_Leave_Turkey_immigration_ad_0_vuT43tH.width-800.jpg
- https://sciencemediahub.eu/2019/12/04/deepfakes-shallowfakes-and-speech-synthesis-tackling-audiovisual-manipulation/
- https://www.techopedia.com/definition/28099/fauxtography
- https://epthinktank.eu/2022/04/21/eu-action-against-fake-news/
- https://about.fb.com/news/2018/09/expanding-fact-checking/
- https://oxforddictionaries.com/definition/claim?region=u
- https://factcheckingday.com/articles/13/10-tips-for-verifying-viral-social-media-videos
- https://www.poynter.org/fact-checking/2018/the-future-of-the-deepfake-and-what-it-means-for-fact-checkers/
- https://doi.org/10.48550/arxiv.2210.06998
- https://doi.org/10.48550/arxiv.2211.04775
- https://techcrunch.com/2022/08/12/a-startup-wants-to-democratize-the-tech-behind-dall-e-2-consequences-be-damned/
- https://factcheckingday.com/articles/13/10/-tips-for-verifying-viral-social-media-videos
- https://fullfact.org/blog/2022/feb/how-to-fact-check-ukraine-videos/
- https://www.reddit.com/r/photoshopbattles/
- https://scholar.google.com/
- https://www.semanticscholar.org/
- https://dblp.org/
- https://aclanthology.org/