Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computadores e sociedade

Prevendo o Sentimento Público Através da Análise de Citações

Este estudo usa aprendizado de máquina pra medir sentimentos sobre os EUA através de citações.

― 6 min ler


Previsão de SentimentoPrevisão de SentimentoBaseada em Citaçõesdo público nos EUA.Usando citações pra prever o sentimento
Índice

Coletar respostas de pesquisas é super importante pra entender o que as pessoas pensam. Mas fazer isso pode ser complicado e geralmente toma muito tempo e grana. E não tem garantia de que muita gente vai responder também. Esse estudo investiga um jeito novo de prever as respostas de pesquisas analisando citações usando aprendizado de máquina. O foco principal é medir como as pessoas se sentem em relação aos Estados Unidos com base nessas citações.

A Importância das Pesquisas

Pesquisas são uma ferramenta essencial pra empresas e governos. Elas ajudam a coletar informações sobre o que as pessoas gostam, precisam e como se comportam. Com esses dados, as empresas podem criar produtos e serviços que atendam melhor às necessidades dos clientes. Os governos usam pesquisas pra verificar como o público se sente sobre questões importantes, como saúde e educação. Pesquisas também são vitais pra avaliar o impacto das políticas governamentais e tomar decisões informadas com base em dados confiáveis.

Desafios com Pesquisas

Embora as pesquisas sejam úteis, elas têm seus desafios. Criar, conduzir e analisar pesquisas pode ser caro e demorado. Às vezes, as pessoas não respondem todas as perguntas, o que resulta em dados faltando. Um número baixo de respostas pode afetar a precisão da pesquisa e levar a conclusões erradas. A pandemia de COVID-19 complicou ainda mais as coisas, já que as pesquisas presenciais se tornaram difíceis, fazendo muitos migrarem pra métodos online que podem impactar a qualidade dos dados coletados.

Práticas Atuais de Pesquisa

Uma organização bem conhecida chamada Pew Research Center faz pesquisas pra coletar a opinião pública sobre vários temas, como política, imigração e ciência. Eles costumam se concentrar em como o mundo vê os Estados Unidos. Depois de coletar os dados, eles publicam artigos que resumem suas descobertas.

Prevendo Dados Faltantes em Pesquisas

Esse estudo busca enfrentar os problemas nas pesquisas ao prever respostas pra países e anos onde os dados estão faltando. Usamos um banco de dados de citações de várias fontes de notícias publicadas entre 2008 e 2020. Coletamos detalhes sobre os falantes das citações, como seus nomes e origens. Ao analisar essas citações, conseguimos inferir como diferentes grupos de pessoas se sentem sobre os Estados Unidos.

Como Analisamos Citações

O método envolve várias etapas:

  1. Coleta de Dados: Extraímos citações do banco de dados e identificamos palavras-chave relacionadas ao tema.
  2. Análise de Sentimento: Cada citação é analisada pra determinar se expressa um sentimento positivo, negativo ou neutro em relação aos EUA.
  3. Redução de Viés: Checamos as fontes de mídia das citações pra eliminar aquelas que mostram pontos de vista tendenciosos, garantindo uma análise mais equilibrada.
  4. Extração de Nacionalidade: Identificamos a nacionalidade dos falantes pra ver como as opiniões diferem por país.
  5. Previsão Usando Aprendizado de Máquina: Usamos uma técnica chamada K-Nearest Neighbor (KNN) pra prever respostas de pesquisas com base no sentimento coletado das citações.

Extração de Palavras-Chave

Pra encontrar citações relevantes, usamos uma combinação de métodos manuais e automatizados. Inicialmente, focamos em termos-chave como "Estados Unidos" e filtramos citações que continham esses termos. Quando isso não resultou em citações suficientes, ampliamos nossa busca incluindo nomes de falantes americanos comuns, permitindo reunir um conjunto de dados mais robusto.

Análise de Sentimento

Análise de sentimento é um método usado pra avaliar as emoções por trás das palavras. No nosso caso, buscamos identificar se as citações tinham uma visão positiva ou negativa sobre os Estados Unidos. Usando um modelo treinado, processamos cada citação e registramos a pontuação de sentimento, que indica a intensidade da opinião expressa.

Reduzindo Viés nas Fontes de Mídia

Garantir que nossa análise não seja distorcida por mídia tendenciosa é importante. Se considerarmos apenas citações de fontes que mostram um ponto de vista específico, nossos resultados vão ficar enviesados. Analisando as pontuações de sentimento de várias fontes de mídia, podemos identificar e excluir aquelas que diferem significativamente da média. Isso melhora a confiabilidade dos nossos dados.

Extraindo Nacionalidades

Saber a nacionalidade dos falantes ajuda a analisar sentimentos sobre os Estados Unidos de diferentes perspectivas. Usando um banco de dados, determinamos a nacionalidade de cada falante. Se não conseguíssemos identificar uma nacionalidade, excluímos essas citações da nossa análise.

Usando KNN pra Previsões

O método K-Nearest Neighbor (KNN) é uma técnica de aprendizado de máquina popular e simples. Ele funciona olhando os pontos de dados mais próximos (vizinhos) pra fazer previsões. No nosso caso, ele ajuda a prever como as pessoas em um país se sentem sobre os Estados Unidos com base no sentimento das citações de pessoas daquele país.

Cenários da Vida Real

Analisamos dois cenários da vida real pra ver como nosso método funciona.

  1. Leave-One-Country-Out (LOCO): Neste cenário, escolhemos um país sem dados de pesquisa e usamos citações de todos os outros países pra prever como as pessoas no país faltante responderiam.
  2. Same-Country Validation (SCV): Aqui, escolhemos um país com dados de pesquisa limitados e tentamos prever respostas pra um ano específico usando dados do mesmo país em outros anos.

Testando esses cenários, conseguimos avaliar a eficácia da nossa abordagem.

Resultados e Descobertas

Os resultados mostraram que usar dados do mesmo país (SCV) levou a previsões melhores comparado a dados de países diferentes (LOCO). Um ponto chave é que ter mais citações disponíveis pra um país melhora muito a precisão das nossas previsões.

Também testamos nosso modelo em países que não estavam cobertos nas pesquisas do Pew, como Suíça, Irã e Nova Zelândia. O modelo conseguiu prever a favorabilidade deles em relação aos Estados Unidos, indicando que nosso método pode ser útil pra fazer previsões em áreas onde não existem dados de pesquisa.

Conclusão

Esse estudo apresenta um novo jeito de prever como as pessoas se sentem sobre os Estados Unidos analisando citações. O método, que inclui coleta de dados, análise de sentimento, redução de viés e previsões com aprendizado de máquina, oferece uma alternativa promissora às pesquisas tradicionais. Combinando diferentes fontes de dados, podemos potencialmente reduzir os custos e o tempo necessário pra conduzir pesquisas, enquanto ainda fornecemos insights confiáveis sobre a opinião pública.

Implicações Futuras

Essa pesquisa abre possibilidades pra estudos futuros em pesquisa de opinião pública. Usando diferentes tipos de dados e métodos, pesquisadores podem explorar sentimentos e opiniões sobre vários tópicos em diferentes países e culturas. As descobertas podem ajudar organizações e governos a tomar decisões mais bem informadas com base na opinião pública precisa.

Fonte original

Título: Predicting Survey Response with Quotation-based Modeling: A Case Study on Favorability towards the United States

Resumo: The acquisition of survey responses is a crucial component in conducting research aimed at comprehending public opinion. However, survey data collection can be arduous, time-consuming, and expensive, with no assurance of an adequate response rate. In this paper, we propose a pioneering approach for predicting survey responses by examining quotations using machine learning. Our investigation focuses on evaluating the degree of favorability towards the United States, a topic of interest to many organizations and governments. We leverage a vast corpus of quotations from individuals across different nationalities and time periods to extract their level of favorability. We employ a combination of natural language processing techniques and machine learning algorithms to construct a predictive model for survey responses. We investigate two scenarios: first, when no surveys have been conducted in a country, and second when surveys have been conducted but in specific years and do not cover all the years. Our experimental results demonstrate that our proposed approach can predict survey responses with high accuracy. Furthermore, we provide an exhaustive analysis of the crucial features that contributed to the model's performance. This study has the potential to impact survey research in the field of data science by substantially decreasing the cost and time required to conduct surveys while simultaneously providing accurate predictions of public opinion.

Autores: Alireza Amirshahi, Nicolas Kirsch, Jonathan Reymond, Saleh Baghersalimi

Última atualização: 2023-05-27 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.14086

Fonte PDF: https://arxiv.org/pdf/2305.14086

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes