Abordando la desinformación en capturas de pantalla
Una herramienta para verificar la autenticidad de capturas de pantalla de redes sociales.
― 6 minilectura
Tabla de contenidos
- Importancia de las Capturas de Pantalla
- Desafíos con los Tuits Falsos
- Validando Capturas de Pantalla
- Extrayendo Información de las Capturas de Pantalla
- Resumen de la Metodología
- Creación del Conjunto de Datos
- Volviendo al Contenido Original
- Usando Motores de Búsqueda
- Utilizando Sitios de Verificación de Hechos
- Buscando en Archivos Web
- Reconocimiento Óptico de Caracteres (OCR)
- Evaluando Métodos de Extracción de Marca de Tiempo
- Desafíos en la Extracción de Marca de Tiempo
- Extrayendo Nombres de Usuario de Twitter
- Desempeño del Método de Extracción de Nombres de Usuario
- Conclusión
- Fuente original
- Enlaces de referencia
Las Capturas de pantalla se usan mucho en las redes sociales para compartir información. Muchas personas comparten estas imágenes sin verificar si la publicación original es verdadera o falsa. Compartir capturas falsas puede causar un montón de desinformación y confusión en línea. Nuestro objetivo es crear una herramienta que pueda analizar una captura de pantalla de un tuit y calcular las posibilidades de que sea genuina, usando información tanto de sitios web en vivo como de páginas archivadas.
Importancia de las Capturas de Pantalla
Las capturas de pantalla permiten a los usuarios compartir publicaciones de manera conveniente en diferentes plataformas. Por ejemplo, alguien puede compartir su tuit en Facebook como una captura de pantalla para llegar a más personas. Las capturas también sirven como prueba cuando hay riesgo de que una publicación pueda ser eliminada. Por ejemplo, un usuario compartió una captura de un tuit relacionado con un evento trágico que luego fue retirado.
Desafíos con los Tuits Falsos
Crear tuits falsos es fácil con herramientas en línea. Una vez que un tuit falso se convierte en captura de pantalla, es difícil saber si es real o no. No hay herramientas actuales que puedan verificar automáticamente si una captura es genuina. La gente a menudo busca en línea o consulta sitios de Verificación de hechos para verificar el contenido, pero esto puede llevar Tiempo. Por ejemplo, un tuit fabricado fue verificado por un sitio de verificación justo después de ser compartido.
Validando Capturas de Pantalla
Para verificar si una captura de pantalla es real, las personas pueden revisar motores de búsqueda o sitios de verificación de hechos. También pueden explorar archivos web para encontrar publicaciones eliminadas. Las herramientas automatizadas podrían simplificar este proceso. Nuestro objetivo es crear una herramienta que ayude a los usuarios a confirmar si el contenido de una captura es auténtico o falso.
Extrayendo Información de las Capturas de Pantalla
Antes de poder verificar la autenticidad de una captura de pantalla, primero necesitamos extraer información importante de ella. Esto incluye el texto del tuit, la marca de tiempo y el nombre de usuario de Twitter. Estamos desarrollando métodos para hacer esto de manera efectiva.
Resumen de la Metodología
El proceso implica recopilar imágenes de capturas de pantalla, definir estrategias de búsqueda y verificar si el contenido original se puede encontrar en línea. Si se puede verificar el contenido, es real; si no, estimaremos las posibilidades de que sea falso.
Creación del Conjunto de Datos
Hemos recopilado un conjunto de datos que contiene 200 imágenes de tuits, incluyendo ejemplos reales y falsos. Este conjunto de datos nos ayudará a crear y probar nuestra herramienta de manera efectiva.
Volviendo al Contenido Original
Un paso importante es encontrar el enlace original al tuit mostrado en la captura de pantalla. El texto del tuit y el nombre de usuario de Twitter pueden usarse como palabras clave en un motor de búsqueda. De esta manera, si el tuit es real, se podrá encontrar el enlace original.
Usando Motores de Búsqueda
Podemos usar una parte del texto del tuit junto con el nombre de usuario para buscar en plataformas como Google. Esto a menudo conduce a la URL del tuit original, mostrando que el contenido es genuino.
Utilizando Sitios de Verificación de Hechos
Otro método implica usar la marca de tiempo y el texto en un sitio de verificación de hechos para comprobar si el contenido fue alguna vez publicado por el autor reclamado. Por ejemplo, un tuit que contenía información falsa fue desmentido por uno de esos sitios.
Buscando en Archivos Web
Los archivos web, como la Wayback Machine, pueden ayudar a encontrar tuits eliminados. Estos archivos almacenan páginas web antiguas y se pueden buscar usando el nombre de usuario de Twitter y la fecha en que se publicó el tuit. Esto es muy útil para encontrar contenido que puede ya no ser visible en Twitter.
Reconocimiento Óptico de Caracteres (OCR)
Para extraer texto de una captura de pantalla, usaremos una herramienta llamada Reconocimiento Óptico de Caracteres (OCR). Esta tecnología lee texto de imágenes y lo convierte en texto editable. Esto nos permite extraer el texto del tuit, el nombre de usuario y la marca de tiempo de la captura de pantalla.
Evaluando Métodos de Extracción de Marca de Tiempo
Hemos probado dos métodos para extraer marcas de tiempo de las capturas de pantalla. El primero usa una herramienta especial de Python para encontrar cadenas de fecha, mientras que el segundo busca patrones numéricos en el texto. Nuestros resultados mostraron que el segundo método es más preciso para extraer la marca de tiempo correcta.
Desafíos en la Extracción de Marca de Tiempo
Algunas capturas de pantalla no incluyen marcas de tiempo en un formato estándar, lo que dificulta la extracción. Por ejemplo, si una marca de tiempo se presenta como "27m", no se puede usar para generar una fecha completa.
Extrayendo Nombres de Usuario de Twitter
Extraer el nombre de usuario de Twitter de una captura de pantalla requiere atención cuidadosa. Los nombres de usuario de Twitter comienzan con "@" y puede haber más de un manejador en un tuit. Por lo tanto, solo extraemos el primer nombre que aparece en una captura de pantalla.
Desempeño del Método de Extracción de Nombres de Usuario
Hemos probado nuestro método para extraer nombres de usuario de Twitter. Los resultados mostraron que nuestro enfoque para identificar nombres fue bastante exitoso, aunque puede haber casos en los que el nombre esté incompleto.
Conclusión
Las capturas de pantalla se han vuelto una forma común de compartir contenido en redes sociales. Sin embargo, el riesgo de difundir desinformación a través de capturas falsas es real. Este trabajo busca abordar el desafío de verificar la autenticidad de las capturas. El conjunto de datos que recopilamos y la herramienta automatizada que estamos desarrollando serán valiosos en la lucha contra la desinformación y asegurando que el contenido compartido en línea sea confiable.
Título: Extracting Information from Twitter Screenshots
Resumen: Screenshots are prevalent on social media as a common approach for information sharing. Users rarely verify before sharing a screenshot whether the post it contains is fake or real. Information sharing through fake screenshots can be highly responsible for misinformation and disinformation spread on social media. Our ultimate goal is to develop a tool that could take a screenshot of a tweet and provide a probability that the tweet is real, using resources found on the live web and in web archives. This paper provides methods for extracting the tweet text, timestamp, and Twitter handle from a screenshot of a tweet.
Autores: Tarannum Zaki, Michael L. Nelson, Michele C. Weigle
Última actualización: 2023-06-14 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2306.08236
Fuente PDF: https://arxiv.org/pdf/2306.08236
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://dl.acm.org/ccs.cfm
- https://twitter.com/RBReich/status/1560027191404072961
- https://www.facebook.com/watchclassinsession/posts/pfbid0344Hu2bxJtAiiL5VHfM2YQyPTU9jTm3tfdJMj4TZMDunomMarXMQfTxPGvsVwfBmwl
- https://twitter.com/ashtonpittman/status/1530243294868930560
- https://www.tweetgen.com/
- https://www.snopes.com/
- https://www.factcheck.org/
- https://web.archive.org/web/20220525125749/
- https://twitter.com/DanielDefense/status/1526237750277681154
- https://twitter.com/philipaklein/status/1507188518459777024
- https://twitter.com/hannahgais/status/1526674114995527680
- https://projects.propublica.org/politwoops/
- https://twitter.com/Imposter_Edits/status/1543960895965085696
- https://twitter.com/
- https://github.com/internetarchive/wayback/tree/master/wayback-cdx-server
- https://twitter.com/Twitter
- https://web.archive.org/web/20220525164026/
- https://twitter.com/NickHanauer/status/1529220873697124353
- https://twitter.com/NickHanauer/status
- https://web.archive.org/cdx/search/cdx?url=
- https://twitter.com/NickHanauer/status&from=20220525&to=20220526&matchType=prefix
- https://web.archive.org/web/
- https://web.archive.org/web/20220525153810/
- https://twitter.com/NickHanauer/status/1305869227409027072
- https://web.archive.org/web/20220526062353/
- https://web.archive.org/web/20220526035516/
- https://web.archive.org/web/20220525184648/
- https://web.archive.org/web/20220525205256/
- https://twitter.com/NickHanauer/status/1374401501024583683
- https://pypi.org/project/pytesseract/
- https://pypi.org/project/datefinder/