Affrontare la disinformazione negli screenshot
Uno strumento per verificare l'autenticità degli screenshot dei social media.
― 5 leggere min
Indice
- Importanza degli Screenshot
- Sfide con i Tweet Falsi
- Validare gli Screenshot
- Estrazione di Informazioni dagli Screenshot
- Panoramica della Metodologia
- Creazione del Set di Dati
- Risalendo al Contenuto Originale
- Utilizzo dei Motori di Ricerca
- Utilizzo di Siti di Fact-Checking
- Ricerca negli Archivi Web
- Riconoscimento Ottico dei Caratteri (OCR)
- Valutazione dei Metodi di Estrazione del Timestamp
- Sfide nell'Estrazione del Timestamp
- Estrazione degli Handle Twitter
- Performance del Metodo di Estrazione degli Handle
- Conclusione
- Fonte originale
- Link di riferimento
Le Screenshot sono super usati sui social per condividere info. Molte persone le condividono senza controllare se il post originale è vero o falso. Condividere screenshot falsi può portare a tanta disinformazione e confusione online. Il nostro obiettivo è creare un tool che possa analizzare uno screenshot di un tweet e calcolare le probabilità che sia genuino, usando info sia da siti live che da pagine archiviate.
Importanza degli Screenshot
Le screenshot permettono di condividere post comodamente su diverse piattaforme. Ad esempio, qualcuno potrebbe condividere il proprio tweet su Facebook come screenshot per raggiungere più persone. Le screenshot servono anche come prova quando c'è il rischio che un post venga cancellato. Per esempio, un utente ha condiviso uno screenshot di un tweet su un evento tragico che è stato poi rimosso.
Sfide con i Tweet Falsi
Creare tweet falsi è facile con gli strumenti online. Una volta che un tweet falso diventa uno screenshot, è difficile capire se è vero o no. Non ci sono strumenti attuali che possano controllare automaticamente se uno screenshot è genuino. La gente spesso cerca online o consulta siti di fact-checking per verificare i contenuti, ma può essere molto lungo. Per esempio, un tweet falso è stato controllato da un sito di fact-checking subito dopo essere stato condiviso.
Validare gli Screenshot
Per verificare se uno screenshot è reale, la gente può controllare i motori di ricerca o i siti di fact-checking. Possono anche esplorare archivi web per trovare post cancellati. Strumenti automatizzati potrebbero semplificare questo processo. Vogliamo creare un tool che aiuti gli utenti a confermare se il contenuto di uno screenshot è autentico o falso.
Estrazione di Informazioni dagli Screenshot
Prima di poter controllare l'autenticità di uno screenshot, dobbiamo prima estrarne le informazioni importanti. Questo include il testo del tweet, il Timestamp e il handle Twitter dell'utente. Stiamo sviluppando metodi per farlo in modo efficace.
Panoramica della Metodologia
Il processo prevede la raccolta di immagini di screenshot, la definizione delle strategie di ricerca e la verifica se il contenuto originale può essere trovato online. Se il contenuto può essere verificato, è reale; se no, stimiamo le probabilità che sia falso.
Creazione del Set di Dati
Abbiamo raccolto un dataset contenente 200 immagini di tweet, includendo esempi sia reali che falsi. Questo dataset ci aiuterà a creare e testare il nostro tool in modo efficace.
Risalendo al Contenuto Originale
Un passo importante è trovare il link originale al tweet mostrato nello screenshot. Il testo del tweet e il handle Twitter possono essere usati come parole chiave in un motore di ricerca. In questo modo, se il tweet è reale, possiamo trovare il link originale.
Utilizzo dei Motori di Ricerca
Possiamo usare una parte del testo del tweet insieme all'handle Twitter per cercare su piattaforme come Google. Questo porta spesso all'URL del tweet originale, mostrando che il contenuto è genuino.
Utilizzo di Siti di Fact-Checking
Un altro metodo consiste nell'utilizzare il timestamp e il testo su un sito di fact-checking per controllare se il contenuto è stato mai postato dall'autore dichiarato. Ad esempio, un tweet che conteneva informazioni false è stato smentito da uno di questi siti.
Ricerca negli Archivi Web
Gli archivi web, come il Wayback Machine, possono aiutare a trovare tweet cancellati. Questi archivi memorizzano vecchie pagine web e possono essere cercati usando l'handle Twitter e la data in cui il tweet è stato postato. Questo è molto utile per trovare contenuti che potrebbero non essere più visibili su Twitter.
Riconoscimento Ottico dei Caratteri (OCR)
Per estrarre il testo da uno screenshot, utilizzeremo uno strumento chiamato Riconoscimento Ottico dei Caratteri (OCR). Questa tecnologia legge il testo dalle immagini e lo converte in testo modificabile. Questo ci permette di estrarre il testo del tweet, l'handle e il timestamp dallo screenshot.
Valutazione dei Metodi di Estrazione del Timestamp
Abbiamo testato due metodi per estrarre i timestamp dagli screenshot. Il primo utilizza uno strumento Python speciale per trovare le stringhe di data, mentre il secondo cerca schemi numerici nel testo. I nostri risultati hanno mostrato che il secondo metodo è più accurato nell'estrarre il timestamp corretto.
Sfide nell'Estrazione del Timestamp
Alcuni screenshot non includono timestamp in un formato standard, rendendo difficile l'estrazione. Ad esempio, se un timestamp è presentato come "27m," non può essere usato per generare una data completa.
Estrazione degli Handle Twitter
Estrarre l'handle Twitter da uno screenshot richiede attenzione. Gli handle Twitter iniziano con "@" e potrebbero esserci più di un handle in un tweet. Pertanto, estraiamo solo il primo handle che appare nello screenshot.
Performance del Metodo di Estrazione degli Handle
Abbiamo testato il nostro metodo per estrarre gli handle Twitter. I risultati hanno mostrato che il nostro approccio per individuare gli handle ha avuto un buon successo, anche se potrebbero esserci casi in cui l'handle è incompleto.
Conclusione
Le screenshot sono diventate un modo comune per condividere contenuti sui social media. Tuttavia, il rischio di diffondere disinformazione attraverso screenshot falsi è reale. Questo lavoro mira a affrontare la sfida di verificare l'autenticità degli screenshot. Il dataset che abbiamo raccolto e il tool automatizzato che stiamo sviluppando saranno preziosi nella lotta contro la disinformazione e garantiranno che i contenuti condivisi online siano affidabili.
Titolo: Extracting Information from Twitter Screenshots
Estratto: Screenshots are prevalent on social media as a common approach for information sharing. Users rarely verify before sharing a screenshot whether the post it contains is fake or real. Information sharing through fake screenshots can be highly responsible for misinformation and disinformation spread on social media. Our ultimate goal is to develop a tool that could take a screenshot of a tweet and provide a probability that the tweet is real, using resources found on the live web and in web archives. This paper provides methods for extracting the tweet text, timestamp, and Twitter handle from a screenshot of a tweet.
Autori: Tarannum Zaki, Michael L. Nelson, Michele C. Weigle
Ultimo aggiornamento: 2023-06-14 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2306.08236
Fonte PDF: https://arxiv.org/pdf/2306.08236
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://dl.acm.org/ccs.cfm
- https://twitter.com/RBReich/status/1560027191404072961
- https://www.facebook.com/watchclassinsession/posts/pfbid0344Hu2bxJtAiiL5VHfM2YQyPTU9jTm3tfdJMj4TZMDunomMarXMQfTxPGvsVwfBmwl
- https://twitter.com/ashtonpittman/status/1530243294868930560
- https://www.tweetgen.com/
- https://www.snopes.com/
- https://www.factcheck.org/
- https://web.archive.org/web/20220525125749/
- https://twitter.com/DanielDefense/status/1526237750277681154
- https://twitter.com/philipaklein/status/1507188518459777024
- https://twitter.com/hannahgais/status/1526674114995527680
- https://projects.propublica.org/politwoops/
- https://twitter.com/Imposter_Edits/status/1543960895965085696
- https://twitter.com/
- https://github.com/internetarchive/wayback/tree/master/wayback-cdx-server
- https://twitter.com/Twitter
- https://web.archive.org/web/20220525164026/
- https://twitter.com/NickHanauer/status/1529220873697124353
- https://twitter.com/NickHanauer/status
- https://web.archive.org/cdx/search/cdx?url=
- https://twitter.com/NickHanauer/status&from=20220525&to=20220526&matchType=prefix
- https://web.archive.org/web/
- https://web.archive.org/web/20220525153810/
- https://twitter.com/NickHanauer/status/1305869227409027072
- https://web.archive.org/web/20220526062353/
- https://web.archive.org/web/20220526035516/
- https://web.archive.org/web/20220525184648/
- https://web.archive.org/web/20220525205256/
- https://twitter.com/NickHanauer/status/1374401501024583683
- https://pypi.org/project/pytesseract/
- https://pypi.org/project/datefinder/