Novo Método para Identificar Desinformação Online
Uma nova maneira de identificar desinformação usando padrões de navegação.
― 10 min ler
Índice
- O Impacto da Desinformação
- Esforços Anteriores pra Combater a Desinformação
- Nossa Nova Abordagem
- Construindo a Estrutura
- Entendendo Padrões de Tráfego
- Conjuntos de dados e Características
- Treinamento e Avaliação do Modelo
- Modelo Multi-Classe pra Narrativas Específicas
- Implantação do Modelo
- Limitações e Ética
- Conclusão
- Fonte original
- Ligações de referência
Desinformação, incluindo notícias falsas e propaganda, é um problema global sério. Ela causou problemas reais durante eventos importantes, como a pandemia de COVID-19 e situações políticas como a invasão da Ucrânia pela Rússia. Pra lidar com isso de forma eficaz, precisamos descobrir quais fontes de notícias estão espalhando informações falsas. Embora alguns métodos usando aprendizado de máquina (ML) tenham sido sugeridos, eles não funcionaram bem na prática. Em testes anteriores, a precisão desses métodos caiu bastante, às vezes até dez vezes, quando usados com dados reais de navegação.
Este artigo apresenta uma nova forma de identificar sites de desinformação usando padrões no tráfego de navegação. Analisando como os usuários navegam online e coletando características desse tráfego, treinamos um modelo pra classificar Domínios da web como confiáveis ou não. Nossa abordagem mostrou grande potencial, superando métodos anteriores.
O Impacto da Desinformação
A desinformação pode ter consequências sérias. Por exemplo, teorias da conspiração como "Pizzagate" prejudicaram a confiança em sistemas democráticos. Na área da saúde, informações falsas sobre tratamentos de COVID-19 levaram a resultados perigosos e até mortes. Desinformação sobre vacinas também complicou os esforços de saúde pública, dificultando a vacinação e colocando a população em maior risco.
Com o crescimento das redes sociais e plataformas digitais, a desinformação pode se espalhar muito mais do que no passado. É crucial identificar os canais que permitem que informações falsas cheguem a um grande público. Pesquisadores de várias áreas estão se unindo pra entender como a desinformação se espalha online e como detectá-la de forma eficaz.
Esforços Anteriores pra Combater a Desinformação
Muitas estratégias foram utilizadas pra combater a desinformação. Isso inclui identificar contas de redes sociais que espalham informações falsas, categorizar notícias e classificar quais domínios são responsáveis por disseminar desinformação. Organizações como a NewsGuard têm sido especialmente importantes nessa área, mantendo listas de sites que não seguem boas práticas jornalísticas.
Apesar de ter sucesso em ambientes controlados, muitos métodos falham ao encontrar novos sites não testados. Uma razão chave pra isso é que os sites de desinformação representam uma pequena fração do que é compartilhado online. Pesquisadores apontaram que, especialmente durante eventos importantes, identificar rapidamente esses sites enganadores é fundamental, já que países como Rússia e China criam redes de sites pra promover propaganda.
Dois desafios significativos surgem ao tentar classificar domínios de desinformação:
- Muitas abordagens existentes não vão bem na hora de identificar novos sites de desinformação.
- Falta um modelo eficaz capaz de categorizar a desinformação em tipos ou narrativas específicas.
Nossa Nova Abordagem
Pra resolver esses problemas, utilizamos padrões de como os usuários navegam pra dentro e fora de sites. Nossa nova estrutura mostrou que analisar esses padrões de navegação poderia levar a um desempenho melhor na identificação de domínios de desinformação. Ao focar em dados de tráfego como um conjunto de características chave, conseguimos resultados bem melhores que métodos anteriores, melhorando a precisão ao usar Modelos em cenários de tráfego real.
As percepções que obtivemos indicaram que os padrões de tráfego associados a sites de desinformação diferem claramente daqueles associados a fontes de notícias confiáveis. Modelando esses fluxos de tráfego como gráficos, conseguimos criar uma estrutura que superou dramaticamente tentativas anteriores de identificar desinformação.
Construindo a Estrutura
Nossa estrutura consiste em duas fases principais: treinamento e implantação.
Fase de Treinamento
Durante a fase de treinamento, coletamos dados sobre tráfego de sites ao longo de um mês, focando tanto em domínios de desinformação conhecidos quanto em sites de notícias confiáveis. Criamos um gráfico de navegação que representa o fluxo de tráfego entre domínios e extraímos características com base nesse gráfico. Isso incluiu dados de plataformas de redes sociais e motores de busca, que são fontes significativas de tráfego para sites de desinformação.
Treinamos vários modelos de aprendizado de máquina pra classificar domínios como fontes de desinformação ou confiáveis. A abordagem utiliza apenas dados de tráfego, sem depender de outras características do domínio, demonstrando que as características de tráfego são suficientes pra uma classificação eficaz.
Fase de Implantação
Na fase de implantação, nosso modelo classifica domínios com base em suas características de tráfego. No entanto, pra reduzir o número de falsos positivos, implementamos uma técnica de filtragem usando domínios de desinformação conhecidos. Ao focar em domínios que estão bem conectados em termos de fluxos de tráfego, melhoramos a precisão do nosso classificador, diminuindo o número de fontes sinalizadas incorretamente.
Quando implantamos nosso modelo usando essa estrutura, conseguimos uma pontuação de precisão de 0.78, que é bem mais alta que os esforços anteriores que ficaram em torno de 0.05 em cenários de testes da vida real semelhantes.
Entendendo Padrões de Tráfego
Domínios de desinformação tendem a ter padrões de tráfego únicos. Pesquisas indicam que quando as pessoas visitam sites de desinformação, muitas vezes vêm de outros domínios de desinformação ou de plataformas de redes sociais específicas. Aproveitamos essa compreensão usando esses fluxos de tráfego como base pro nosso modelo.
Em um gráfico de navegação típico, os nós representam domínios e as arestas direcionadas representam o fluxo de tráfego entre eles. Cada aresta é ponderada pelo número de visitas de um domínio a outro, permitindo que nosso modelo entenda a natureza das conexões dentro do ecossistema de desinformação.
Egonets
Criamos subgráficos focados, chamados de egonets. Esses egonets contêm um domínio de interesse junto com todos os seus domínios diretamente conectados. Ao analisar o tráfego dentro desses egonets, conseguimos extrair características que nos informam sobre potenciais desinformações.
O processo de filtragem usando redes baseadas em ego permite que a gente melhore a relação sinal-ruído, resultando em menos classificações incorretas e uma carga de trabalho mais gerenciável pros revisores humanos que validam os domínios sinalizados.
Conjuntos de dados e Características
Pra construir nosso modelo, trabalhamos com vários conjuntos de dados pra garantir que nossa classificação fosse robusta:
- Conjunto de Dados NewsGuard: Contém domínios avaliados quanto à credibilidade com base em práticas éticas de jornalismo.
- Índice Global de Desinformação (GDI): Inclui domínios verificados como sites de desinformação.
- Lista de Domínios de Propaganda: Compilada por especialistas, inclui domínios reconhecidos por espalhar propaganda russa.
Coletamos dados de tráfego de um navegador web popular ao longo de vários meses, garantindo que tivéssemos um rico conjunto de dados pra treinar nosso modelo.
Extração de Características
A partir desses dados de tráfego, derivamos características que destacam interações com domínios de desinformação e confiáveis. Ao focar apenas em padrões de tráfego, percebemos que podíamos identificar com precisão a desinformação sem precisar considerar fatores adicionais, como a localização ou idade do host.
Treinamento e Avaliação do Modelo
Dividimos nosso processo de treinamento em conjuntos de dados mensais distintos pra garantir que nosso modelo pudesse generalizar bem pra várias condições de tráfego. Utilizamos uma variedade de técnicas de aprendizado de máquina e avaliamos seu desempenho usando várias métricas, incluindo precisão, exatidão e recuperação.
Resultados
Os modelos com melhor desempenho demonstraram constantemente altas taxas de precisão e recuperação ao longo de diferentes meses, indicando desempenho confiável na identificação de domínios de desinformação. Isso foi especialmente notável quando usamos apenas características de tráfego, mostrando que o foco no comportamento de navegação é eficaz pra enfrentar o problema da desinformação.
Modelo Multi-Classe pra Narrativas Específicas
Além de simplesmente identificar a desinformação, expandimos nosso modelo pra classificar diferentes tipos de desinformação. Por exemplo, focamos especificamente na propaganda patrocinada pelo estado russo, que é uma preocupação significativa em eventos geopolíticos recentes.
Analisando dados de tráfego em torno desses domínios, conseguimos criar um modelo mais nuançado que identifica não apenas se um domínio é confiável ou não, mas também o tipo de desinformação que ele provavelmente está espalhando. Nosso modelo alcançou uma taxa de precisão de 0.98 ao classificar esses domínios.
Implantação do Modelo
Ao colocar nosso modelo em ação, o implantamos no contexto de dados reais de tráfego da internet. Aplicando nossas técnicas de filtragem, reduzimos a carga de trabalho pros revisores humanos e conseguimos uma maneira mais eficiente de identificar desinformação sem sobrecarregar o processo de verificação.
Processo de Revisão Manual
Depois que nosso modelo sinalizou domínios como possíveis fontes de desinformação, um processo de revisão humana foi implementado. Revisores avaliaram uma amostra de domínios sinalizados pra determinar sua credibilidade. Essa abordagem dupla, utilizando aprendizado de máquina enquanto envolve o julgamento humano, provou ser eficaz em manter a qualidade da detecção de desinformação.
Limitações e Ética
Embora nossa abordagem tenha mostrado potencial, não é isenta de limitações. Um desafio é nossa dependência de dados de tráfego. Esses dados podem ser enviesados, e os conjuntos de dados rotulados usados pra treinamento podem refletir esse viés.
Em termos éticos, é vital garantir que a privacidade dos usuários seja mantida. Todos os dados em nosso estudo foram coletados de usuários que consentiram, e informações pessoais identificáveis foram removidas. Avançando, é importante reconhecer que o papel do nosso modelo é ajudar moderadores humanos em vez de substituí-los completamente.
Conclusão
Este estudo enfatiza a necessidade de métodos confiáveis pra identificar desinformação na internet. Aproveitando padrões de navegação e características de tráfego, desenvolvemos uma estrutura robusta pra classificar domínios da web como confiáveis ou enganadores. Nossa abordagem não só melhora significativamente as taxas de detecção, mas também permite a identificação de tipos específicos de desinformação.
À medida que a desinformação continua a evoluir, nossos métodos de detectá-la também devem evoluir. Este trabalho fornece uma base sólida pra pesquisas futuras que visem refinar ainda mais essas técnicas e, potencialmente, integrar análise de conteúdo em nossos modelos pra resultados ainda melhores. O objetivo final é claro: combater a disseminação da desinformação de forma eficaz e proteger a integridade das informações na nossa sociedade.
Título: Navigating the Web of Misinformation: A Framework for Misinformation Domain Detection Using Browser Traffic
Resumo: The proliferation of misinformation and propaganda is a global challenge, with profound effects during major crises such as the COVID-19 pandemic and the Russian invasion of Ukraine. Understanding the spread of misinformation and its social impacts requires identifying the news sources spreading false information. While machine learning (ML) techniques have been proposed to address this issue, ML models have failed to provide an efficient implementation scenario that yields useful results. In prior research, the precision of deployment in real traffic deteriorates significantly, experiencing a decrement up to ten times compared to the results derived from benchmark data sets. Our research addresses this gap by proposing a graph-based approach to capture navigational patterns and generate traffic-based features which are used to train a classification model. These navigational and traffic-based features result in classifiers that present outstanding performance when evaluated against real traffic. Moreover, we also propose graph-based filtering techniques to filter out models to be classified by our framework. These filtering techniques increase the signal-to-noise ratio of the models to be classified, greatly reducing false positives and the computational cost of deploying the model. Our proposed framework for the detection of misinformation domains achieves a precision of 0.78 when evaluated in real traffic. This outcome represents an improvement factor of over ten times over those achieved in previous studies.
Autores: Mayana Pereira, Kevin Greene, Nilima Pisharody, Rahul Dodhia, Jacob N. Shapiro, Juan Lavista
Última atualização: 2023-07-24 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2307.13180
Fonte PDF: https://arxiv.org/pdf/2307.13180
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.