Abordando a desinformação em prints de tela
Uma ferramenta pra verificar a autenticidade de prints de redes sociais.
― 5 min ler
Índice
- Importância dos Prints
- Desafios com Tweets Falsos
- Validando Prints
- Extraindo Informações dos Prints
- Visão Geral da Metodologia
- Criação do Conjunto de Dados
- Retrocedendo para o Conteúdo Original
- Usando Motores de Busca
- Utilizando Sites de Checagem
- Pesquisando Arquivos da Web
- Reconhecimento Óptico de Caracteres (OCR)
- Avaliando Métodos de Extração de Data e Hora
- Desafios na Extração de Data e Hora
- Extraindo Usuários do Twitter
- Desempenho do Método de Extração de Usernames
- Conclusão
- Fonte original
- Ligações de referência
Prints de tela são super usados nas redes sociais pra compartilhar informações. Muita gente manda essas imagens sem checar se o post original é verdadeiro ou falso. Compartilhar prints falsos pode causar muita desinformação e confusão na internet. O nosso objetivo é criar uma ferramenta que consiga analisar um print de um tweet e calcular as chances dele ser genuíno, usando informações de sites ao vivo e páginas arquivadas.
Importância dos Prints
Os prints permitem que os usuários compartilhem posts de um jeito prático em várias plataformas. Por exemplo, alguém pode compartilhar o tweet no Facebook como um print pra alcançar mais pessoas. Prints também servem como prova quando há risco de um post ser deletado. Por exemplo, um usuário compartilhou um print de um tweet sobre um evento trágico que depois foi tirado do ar.
Desafios com Tweets Falsos
Criar tweets falsos é fácil com ferramentas online. Uma vez que um tweet falso vira print, é difícil saber se é real ou não. Não existem ferramentas que chequem automaticamente se um print é genuíno. As pessoas costumam buscar online ou consultar sites de checagem de fatos pra verificar conteúdo, mas isso pode demorar. Por exemplo, um tweet fabricado foi checado por um site de checagem logo depois de ser compartilhado.
Validando Prints
Pra verificar se um print é real, as pessoas podem usar buscadores ou sites de checagem. Elas também podem explorar arquivos da web pra encontrar posts deletados. Ferramentas automatizadas poderiam simplificar esse processo. A gente quer criar uma ferramenta que ajude os usuários a confirmar se o conteúdo de um print é autêntico ou falso.
Extraindo Informações dos Prints
Antes de checar a autenticidade de um print, a gente precisa extrair informações importantes dele. Isso inclui o texto do tweet, a data e hora, e o usuário do Twitter. Estamos desenvolvendo métodos pra fazer isso de forma eficaz.
Visão Geral da Metodologia
O processo envolve coletar imagens de prints, definir estratégias de busca e verificar se o conteúdo original pode ser encontrado online. Se a gente conseguir verificar o conteúdo, ele é real; se não, vamos estimar as chances de ser falso.
Criação do Conjunto de Dados
A gente coletou um conjunto de dados com 200 imagens de tweets, incluindo exemplos reais e falsos. Esse conjunto vai ajudar a gente a criar e testar nossa ferramenta de forma eficaz.
Retrocedendo para o Conteúdo Original
Uma etapa importante é encontrar o link original do tweet que aparece no print. O texto do tweet e o usuário do Twitter podem ser usados como palavras-chave em um motor de busca. Dessa forma, se o tweet for real, o link original pode ser encontrado.
Usando Motores de Busca
A gente pode usar uma parte do texto do tweet junto com o usuário do Twitter pra buscar em plataformas como o Google. Isso geralmente leva ao URL do tweet original, mostrando que o conteúdo é genuíno.
Utilizando Sites de Checagem
Outro método envolve usar a data e hora e o texto em um site de checagem pra ver se o conteúdo foi postado pelo autor que diz ter postado. Por exemplo, um tweet com informações falsas foi desmentido por um desses sites.
Pesquisando Arquivos da Web
Arquivos da web, como o Wayback Machine, podem ajudar a encontrar tweets deletados. Esses arquivos guardam páginas antigas da web e podem ser pesquisados usando o usuário do Twitter e a data em que o tweet foi postado. Isso é muito útil pra encontrar conteúdo que pode não estar mais visível no Twitter.
Reconhecimento Óptico de Caracteres (OCR)
Pra extrair texto de um print, a gente vai usar uma ferramenta chamada Reconhecimento Óptico de Caracteres (OCR). Essa tecnologia lê texto de imagens e transforma em texto editável. Isso permite que a gente consiga puxar o texto do tweet, o usuário e a data do print.
Avaliando Métodos de Extração de Data e Hora
A gente testou dois métodos pra extrair datas e horas de prints. O primeiro usa uma ferramenta especial em Python pra encontrar strings de data, enquanto o segundo busca por padrões numéricos no texto. Nossos resultados mostraram que o segundo método é mais preciso pra puxar a data e hora corretas.
Desafios na Extração de Data e Hora
Alguns prints não têm timestamps em um formato padrão, o que dificulta a extração. Por exemplo, se um timestamp aparece como "27m", não dá pra gerar uma data completa.
Extraindo Usuários do Twitter
Extrair o usuário do Twitter de um print exige atenção. Usuários do Twitter começam com "@" e pode haver mais de um handle em um tweet. Então, a gente só extrai o primeiro handle que aparece no print.
Desempenho do Método de Extração de Usernames
A gente testou nosso método pra extrair usuários do Twitter. Os resultados mostraram que nossa abordagem pra identificar handles foi bem sucedida, embora possa haver casos em que o handle esteja incompleto.
Conclusão
Prints se tornaram uma forma comum de compartilhar conteúdo nas redes sociais. No entanto, o risco de espalhar desinformação através de prints falsos é real. Esse trabalho visa enfrentar o desafio de verificar a autenticidade de prints. O conjunto de dados que coletamos e a ferramenta automatizada que estamos desenvolvendo serão valiosos na luta contra desinformação e na garantia de que o conteúdo compartilhado online é confiável.
Título: Extracting Information from Twitter Screenshots
Resumo: Screenshots are prevalent on social media as a common approach for information sharing. Users rarely verify before sharing a screenshot whether the post it contains is fake or real. Information sharing through fake screenshots can be highly responsible for misinformation and disinformation spread on social media. Our ultimate goal is to develop a tool that could take a screenshot of a tweet and provide a probability that the tweet is real, using resources found on the live web and in web archives. This paper provides methods for extracting the tweet text, timestamp, and Twitter handle from a screenshot of a tweet.
Autores: Tarannum Zaki, Michael L. Nelson, Michele C. Weigle
Última atualização: 2023-06-14 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.08236
Fonte PDF: https://arxiv.org/pdf/2306.08236
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://dl.acm.org/ccs.cfm
- https://twitter.com/RBReich/status/1560027191404072961
- https://www.facebook.com/watchclassinsession/posts/pfbid0344Hu2bxJtAiiL5VHfM2YQyPTU9jTm3tfdJMj4TZMDunomMarXMQfTxPGvsVwfBmwl
- https://twitter.com/ashtonpittman/status/1530243294868930560
- https://www.tweetgen.com/
- https://www.snopes.com/
- https://www.factcheck.org/
- https://web.archive.org/web/20220525125749/
- https://twitter.com/DanielDefense/status/1526237750277681154
- https://twitter.com/philipaklein/status/1507188518459777024
- https://twitter.com/hannahgais/status/1526674114995527680
- https://projects.propublica.org/politwoops/
- https://twitter.com/Imposter_Edits/status/1543960895965085696
- https://twitter.com/
- https://github.com/internetarchive/wayback/tree/master/wayback-cdx-server
- https://twitter.com/Twitter
- https://web.archive.org/web/20220525164026/
- https://twitter.com/NickHanauer/status/1529220873697124353
- https://twitter.com/NickHanauer/status
- https://web.archive.org/cdx/search/cdx?url=
- https://twitter.com/NickHanauer/status&from=20220525&to=20220526&matchType=prefix
- https://web.archive.org/web/
- https://web.archive.org/web/20220525153810/
- https://twitter.com/NickHanauer/status/1305869227409027072
- https://web.archive.org/web/20220526062353/
- https://web.archive.org/web/20220526035516/
- https://web.archive.org/web/20220525184648/
- https://web.archive.org/web/20220525205256/
- https://twitter.com/NickHanauer/status/1374401501024583683
- https://pypi.org/project/pytesseract/
- https://pypi.org/project/datefinder/