S'attaquer à la désinformation dans les captures d'écran
Un outil pour vérifier l'authenticité des captures d'écran de réseaux sociaux.
― 6 min lire
Table des matières
- Importance des Captures d'Écran
- Défis avec les Tweets Falsifiés
- Validation des Captures d'Écran
- Extraction d'Informations des Captures d'Écran
- Aperçu de la Méthodologie
- Création de Jeu de Données
- Retour à Contenu Original
- Utilisation des Moteurs de Recherche
- Utilisation des Sites de Fact-Checking
- Recherche dans les Archives Web
- Reconnaissance Optique de Caractères (OCR)
- Évaluation des Méthodes d'Extraction de Timestamp
- Défis dans l'Extraction de Timestamp
- Extraction des Pseudos Twitter
- Performance de la Méthode d'Extraction de Pseudo
- Conclusion
- Source originale
- Liens de référence
Les Captures d'écran sont super répandues sur les réseaux sociaux pour partager des infos. Beaucoup de gens partagent ces images sans vérifier si le post original est vrai ou faux. Partager de fausses captures peut balancer un max de désinformations et de confusion en ligne. Notre but, c'est de créer un outil qui peut analyser une capture d'écran d'un tweet et calculer les chances qu'elle soit authentique, en utilisant des infos de sites en temps réel et de pages archivées.
Importance des Captures d'Écran
Les captures d'écran permettent aux utilisateurs de partager des posts facilement sur différentes plateformes. Par exemple, quelqu'un peut partager son tweet sur Facebook sous forme de capture pour toucher plus de monde. Elles servent aussi de preuve quand on craint qu'un post soit supprimé. Par exemple, un utilisateur a partagé une capture d'écran d'un tweet sur un événement tragique qui a ensuite été enlevé.
Défis avec les Tweets Falsifiés
C'est facile de créer de faux tweets avec des outils en ligne. Une fois qu'un faux tweet est transformé en capture d'écran, c'est galère de dire si c'est vrai ou pas. Actuellement, il n'existe pas d'outils qui peuvent automatiquement vérifier si une capture d'écran est authentique. Les gens cherchent souvent en ligne ou consultent des sites de fact-checking pour vérifier le contenu, mais ça peut prendre un temps fou. Par exemple, un tweet inventé a été vérifié par un site de fact-checking juste après avoir été partagé.
Validation des Captures d'Écran
Pour vérifier si une capture d'écran est réelle, les gens peuvent checker sur les moteurs de recherche ou des sites de fact-checking. Ils peuvent aussi fouiller dans les archives web pour retrouver des posts supprimés. Des outils automatisés pourraient simplifier ce processus. On vise à créer un outil qui aidera les utilisateurs à confirmer si le contenu d'une capture d'écran est authentique ou faux.
Extraction d'Informations des Captures d'Écran
Avant de vérifier l'authenticité d'une capture d'écran, il faut d'abord extraire des infos importantes. Ça inclut le texte du tweet, l'heure et le pseudo Twitter de l'utilisateur. On développe des méthodes pour faire ça efficacement.
Aperçu de la Méthodologie
Le processus implique de rassembler des images de captures d'écran, de définir des stratégies de recherche et de vérifier si le contenu original peut être trouvé en ligne. Si le contenu peut être vérifié, c'est réel ; sinon, on évaluera les chances que ce soit faux.
Création de Jeu de Données
On a rassemblé un jeu de données contenant 200 images de tweets, avec des exemples vrais et faux. Ce jeu de données va nous aider à créer et tester notre outil de manière efficace.
Retour à Contenu Original
Une étape importante est de trouver le lien original du tweet montré dans la capture d'écran. Le texte du tweet et le pseudo Twitter peuvent servir de mots-clés dans un moteur de recherche. Ainsi, si le tweet est réel, le lien original peut être trouvé.
Utilisation des Moteurs de Recherche
On peut utiliser une partie du texte du tweet avec le pseudo Twitter pour chercher sur des plateformes comme Google. Ça mène souvent à l'URL du tweet original, prouvant que le contenu est authentique.
Utilisation des Sites de Fact-Checking
Une autre méthode consiste à utiliser le timestamp et le texte sur un site de fact-checking pour vérifier si le contenu a déjà été posté par l'auteur prétendu. Par exemple, un tweet contenant de fausses infos a été démenti par un de ces sites.
Recherche dans les Archives Web
Les archives web, comme la Wayback Machine, peuvent aider à retrouver des tweets supprimés. Ces archives stockent des anciennes pages web et peuvent être fouillées en utilisant le pseudo Twitter et la date du tweet. C'est super utile pour retrouver du contenu qui n'est peut-être plus visible sur Twitter.
Reconnaissance Optique de Caractères (OCR)
Pour extraire du texte d'une capture d'écran, on va utiliser un outil appelé Reconnaissance Optique de Caractères (OCR). Cette technologie lit le texte des images et le convertit en texte modifiable. Ça nous permet de sortir le texte du tweet, le pseudo et le timestamp de la capture d'écran.
Évaluation des Méthodes d'Extraction de Timestamp
On a testé deux méthodes pour extraire les timestamps des captures d'écran. La première utilise un outil Python spécial pour trouver des chaînes de dates, tandis que la seconde cherche des patterns numériques dans le texte. Nos résultats ont montré que la seconde méthode est plus précise pour extraire le bon timestamp.
Défis dans l'Extraction de Timestamp
Certaines captures d'écran n'ont pas de timestamps dans un format standard, ce qui rend l'extraction difficile. Par exemple, si un timestamp est présenté comme "27m," on ne peut pas l'utiliser pour générer une date complète.
Extraction des Pseudos Twitter
Extraire le pseudo Twitter d'une capture d'écran demande une attention particulière. Les pseudos Twitter commencent par "@" et il peut y avoir plus d'un pseudo dans un tweet. Donc, on extrait seulement le premier pseudo qui apparaît dans une capture d'écran.
Performance de la Méthode d'Extraction de Pseudo
On a testé notre méthode pour extraire les pseudos Twitter. Les résultats ont montré que notre approche pour identifier les pseudos était plutôt réussie, même s'il peut y avoir des cas où le pseudo est incomplet.
Conclusion
Les captures d'écran sont devenues un moyen courant de partager du contenu sur les réseaux sociaux. Cependant, le risque de diffuser des désinformations via de fausses captures est réel. Ce travail vise à relever le défi de vérifier l'authenticité des captures d'écran. Le jeu de données qu'on a collecté et l'outil automatisé qu'on développe seront précieux pour lutter contre la désinformation et garantir que le contenu partagé en ligne est fiable.
Titre: Extracting Information from Twitter Screenshots
Résumé: Screenshots are prevalent on social media as a common approach for information sharing. Users rarely verify before sharing a screenshot whether the post it contains is fake or real. Information sharing through fake screenshots can be highly responsible for misinformation and disinformation spread on social media. Our ultimate goal is to develop a tool that could take a screenshot of a tweet and provide a probability that the tweet is real, using resources found on the live web and in web archives. This paper provides methods for extracting the tweet text, timestamp, and Twitter handle from a screenshot of a tweet.
Auteurs: Tarannum Zaki, Michael L. Nelson, Michele C. Weigle
Dernière mise à jour: 2023-06-14 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.08236
Source PDF: https://arxiv.org/pdf/2306.08236
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://dl.acm.org/ccs.cfm
- https://twitter.com/RBReich/status/1560027191404072961
- https://www.facebook.com/watchclassinsession/posts/pfbid0344Hu2bxJtAiiL5VHfM2YQyPTU9jTm3tfdJMj4TZMDunomMarXMQfTxPGvsVwfBmwl
- https://twitter.com/ashtonpittman/status/1530243294868930560
- https://www.tweetgen.com/
- https://www.snopes.com/
- https://www.factcheck.org/
- https://web.archive.org/web/20220525125749/
- https://twitter.com/DanielDefense/status/1526237750277681154
- https://twitter.com/philipaklein/status/1507188518459777024
- https://twitter.com/hannahgais/status/1526674114995527680
- https://projects.propublica.org/politwoops/
- https://twitter.com/Imposter_Edits/status/1543960895965085696
- https://twitter.com/
- https://github.com/internetarchive/wayback/tree/master/wayback-cdx-server
- https://twitter.com/Twitter
- https://web.archive.org/web/20220525164026/
- https://twitter.com/NickHanauer/status/1529220873697124353
- https://twitter.com/NickHanauer/status
- https://web.archive.org/cdx/search/cdx?url=
- https://twitter.com/NickHanauer/status&from=20220525&to=20220526&matchType=prefix
- https://web.archive.org/web/
- https://web.archive.org/web/20220525153810/
- https://twitter.com/NickHanauer/status/1305869227409027072
- https://web.archive.org/web/20220526062353/
- https://web.archive.org/web/20220526035516/
- https://web.archive.org/web/20220525184648/
- https://web.archive.org/web/20220525205256/
- https://twitter.com/NickHanauer/status/1374401501024583683
- https://pypi.org/project/pytesseract/
- https://pypi.org/project/datefinder/