Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Recuperação de informação

Monitorando as Atitudes Públicas em Relação à Biodiversidade

Analisar as opiniões do público sobre a vida selvagem é fundamental para os esforços de conservação em todo o mundo.

― 9 min ler


Atitudes em relação àAtitudes em relação àBiodiversidade eConservaçãoconservação.públicas ajuda nas estratégias deAutomatizar a análise das opiniões
Índice

O interesse público em biodiversidade é super importante pra fazer a conservação dar certo. Entender como as pessoas se sentem em relação à vida selvagem ajuda a moldar nossa relação com a natureza e acompanhar o progresso rumo às metas globais de biodiversidade. Mas, avaliar as atitudes do público em diferentes regiões e espécies pode ser complicado. Métodos manuais pra coletar informações de notícias e redes sociais consomem muito tempo e podem gerar resultados tendenciosos. Dados brutos dessas fontes costumam ter conteúdo sem relação, tornando difícil conseguir informações precisas.

Pra resolver esses desafios, podemos usar ferramentas modernas de Processamento de Linguagem Natural (PLN). Isso envolve uma nova forma de gerar termos de busca pra tornar a busca por conteúdo relevante menos tendenciosa e mais eficiente. A gente também usa técnicas pra identificar e filtrar artigos repetidos que não trazem informações novas. Nossa abordagem inclui um sistema que encontra tópicos comuns nos dados e um modelo que consegue categorizar os títulos de notícias. Por fim, a gente analisa o sentimento, os tópicos e o volume de discussões sobre vários grupos de animais durante eventos importantes, como a pandemia de COVID-19.

A Importância de Monitorar Atitudes Públicas

Monitorar como as pessoas se sentem sobre a vida selvagem é vital pra conservação. Algumas campanhas focam em animais específicos pra envolver mais gente e influenciar políticas. No entanto, é preciso um apoio mais amplo pra todas as espécies pra evitar a perda de biodiversidade. O desafio está em conseguir informações abrangentes sobre as atitudes do público em relação a várias espécies em nível global.

Os dados digitais oferecem um jeito de coletar insights de uma audiência ampla sem os altos custos das pesquisas tradicionais. O comportamento online das pessoas mostra o interesse delas em espécies, não apenas as intenções. Embora ferramentas como visualizações da Wikipedia e Google Trends ofereçam algumas ideias, notícias e redes sociais dão um contexto mais rico sobre como a biodiversidade é discutida.

Desafios na Coleta de Dados

Escolher termos de busca eficazes pra encontrar informações sobre diferentes espécies é complexo. Essa complexidade surge porque especialistas usam nomes científicos específicos, enquanto o público geral fala mais os nomes comuns. Por exemplo, enquanto cientistas podem se referir a uma espécie como "Rhinolophus affinis", a maioria das pessoas vai apenas dizer "morcego". Essa diferença cria um desafio na hora de coletar dados precisos sobre as opiniões públicas.

Usar nomes científicos pode garantir resultados precisos, mas corre o risco de deixar de fora conversas gerais sobre as espécies. Por outro lado, nomes comuns podem trazer resultados irrelevantes, como artigos sobre times de esportes que têm o mesmo nome. Algumas tentativas passadas tentaram criar listas de nomes comuns pra conservação, mas fazer isso em larga escala é difícil e pode ser subjetivo.

Outro problema é que nomes comuns podem aparecer em contextos não relacionados. Por exemplo, o termo "tigre" pode se referir a uma espécie de gato, a um time de esportes ou ao nome de uma pessoa. Pra resolver isso, podemos usar modelos de aprendizado de máquina pra filtrar artigos irrelevantes. No entanto, essa abordagem precisa de muitos dados de treinamento e pode ser tendenciosa se os dados de treinamento não forem diversos.

Desenvolvimento de um Novo Pipeline de Coleta de Dados

A gente criou um sistema pra coletar artigos de notícias e postagens em redes sociais sobre espécies animais importantes. Nosso método começa com a coleta de nomes comuns, que são as referências do dia a dia que as pessoas usam pra essas espécies. Agrupando nomes similares, conseguimos analisar tanto animais bem conhecidos quanto os menos conhecidos de forma eficaz.

Quando a gente busca artigos online, usamos termos de busca específicos. Os dados que coletamos incluem títulos de artigos, URLs, datas de publicação e países. Como nossas consultas podem retornar muitos artigos, dividimos a coleta de dados em segmentos de tempo menores pra gerenciar o volume.

Depois que a gente coleta os dados iniciais, classificamos os artigos com base na relevância deles pra conservação da vida selvagem. Usando modelos de aprendizado de máquina, podemos prever se um artigo se relaciona com nossa área de interesse. Apenas os considerados relevantes são então examinados em seu conteúdo completo.

Depois de extrair os textos completos, precisamos filtrar artigos duplicados que oferecem informações similares. Usamos uma técnica que mede a similaridade entre artigos pra identificar esses duplicados. Isso nos permite agilizar nossa análise e focar apenas em conteúdo original.

Analisando o Discurso Público

Uma vez que temos um conjunto limpo de artigos e tweets sobre táxons específicos, conseguimos analisar o volume de discussões ao longo do tempo e em diferentes regiões. Checamos quantos artigos mencionam certos animais a cada mês e os categorizamos por país.

Pra avaliar como as pessoas se sentem sobre diferentes animais, usamos um método de Análise de Sentimento. Essa técnica fornece uma pontuação de sentimento pra cada artigo, variando de negativa a positiva. Ao agregar essas pontuações, conseguimos identificar tendências de como o sentimento público muda ao longo do tempo.

Nossa análise nos permite oferecer insights sobre como diferentes espécies são percebidas na mídia. Podemos visualizar esses dados usando mapas e diagramas que mostram tendências no discurso público e coocorrências de tópicos. Por exemplo, certos táxons podem ser discutidos com mais frequência ao lado de tópicos como conservação ou saúde.

Estudo de Caso: Monitorando Morcegos e Outros Mamíferos Durante a COVID-19

Pra demonstrar a eficácia do nosso pipeline, olhamos especificamente para discussões sobre mamíferos antes e durante a pandemia de COVID-19. Esse período foi particularmente interessante porque algumas espécies, como os morcegos, foram implicadas no surto.

Durante nosso período de análise, percebemos que uma grande parte dos artigos que mencionavam morcegos era irrelevante pra biodiversidade. Essa descoberta ressalta a necessidade do nosso processo de filtragem. Assim que a pandemia começou, notamos um aumento nos artigos sobre morcegos de ferradura, que frequentemente eram abordados no contexto de preocupações com a saúde. Em contraste, outras espécies não tiveram o mesmo nível de cobertura da mídia.

Estudando os dados ao longo do tempo, notamos mudanças no volume de artigos e nas mudanças de sentimento em relação a diferentes espécies. A situação dos morcegos de ferradura revelou que sua representação mudou de negativa pra mais neutra ou positiva à medida que as pessoas começaram a se conscientizar da importância ecológica deles.

Metodologia: Coleta e Análise de Dados

Construindo a Taxonomia

Nosso primeiro passo foi construir uma taxonomia de nomes comuns em inglês, o que ajudou a identificar os termos de busca relevantes. Coletamos nomes de uma fonte respeitável que lista espécies de mamíferos e seus nomes comuns. Depois, usamos um algoritmo de correspondência de strings pra encontrar links entre nomes similares, criando um gráfico onde os nós representam espécies e seus nomes comuns.

Coletando Artigos de Notícias e Postagens em Redes Sociais

Usando a taxonomia construída, buscamos em bancos de dados de notícias por artigos que mencionassem nossas espécies-alvo. Coletamos dados de fontes respeitáveis que oferecem acesso ao texto completo dos artigos. Isso envolveu usar termos de busca específicos e refinar ainda mais os resultados através da filtragem de relevância.

Extraindo e Processando Texto

Depois de coletar artigos relevantes, extraímos o texto completo e procuramos menções específicas dos nossos táxons-alvo. Essas informações nos permitiram analisar o sentimento e a prevalência dos tópicos.

Analisando os Dados

Fizemos várias análises pra acompanhar o volume de discurso ao longo do tempo e como o sentimento mudou. Pra cada espécie-alvo, examinamos artigos quanto ao tom emocional e aos tópicos que cobriam. Nossos métodos de visualização incluíram mapas e diagramas que comunicaram efetivamente nossas descobertas.

Direções Futuras para o Monitoramento da Conservação

Nossa abordagem destaca o potencial de usar ferramentas digitais e PLN pra acompanhar as percepções públicas sobre biodiversidade. Ao automatizar esse processo, conseguiremos fornecer insights em tempo real e em várias regiões. No entanto, reconhecemos que há áreas pra melhorar na nossa metodologia.

Uma área chave é expandir o escopo linguístico pra incluir outros idiomas. Fazendo isso, poderíamos monitorar melhor a opinião pública em regiões diversas, especialmente em países com rica biodiversidade.

Além disso, precisamos nos adaptar ao cenário em mudança das plataformas digitais. As mudanças recentes nas redes sociais podem impactar a disponibilidade de dados, exigindo estratégias flexíveis pra continuar monitorando os sentimentos públicos de forma eficaz.

Conclusão

Em conclusão, nossos esforços pra automatizar a análise das atitudes públicas em relação à biodiversidade revelam insights cruciais sobre nossa relação com a natureza. Os métodos que desenvolvemos mostram potencial pra melhorar a comunicação de conservação e o engajamento público. Monitorando efetivamente as atitudes, podemos trabalhar em direções mais informadas e impactantes pra esforços de conservação em todo o mundo.

Fonte original

Título: Automating the Analysis of Public Saliency and Attitudes towards Biodiversity from Digital Media

Resumo: Measuring public attitudes toward wildlife provides crucial insights into our relationship with nature and helps monitor progress toward Global Biodiversity Framework targets. Yet, conducting such assessments at a global scale is challenging. Manually curating search terms for querying news and social media is tedious, costly, and can lead to biased results. Raw news and social media data returned from queries are often cluttered with irrelevant content and syndicated articles. We aim to overcome these challenges by leveraging modern Natural Language Processing (NLP) tools. We introduce a folk taxonomy approach for improved search term generation and employ cosine similarity on Term Frequency-Inverse Document Frequency vectors to filter syndicated articles. We also introduce an extensible relevance filtering pipeline which uses unsupervised learning to reveal common topics, followed by an open-source zero-shot Large Language Model (LLM) to assign topics to news article titles, which are then used to assign relevance. Finally, we conduct sentiment, topic, and volume analyses on resulting data. We illustrate our methodology with a case study of news and X (formerly Twitter) data before and during the COVID-19 pandemic for various mammal taxa, including bats, pangolins, elephants, and gorillas. During the data collection period, up to 62% of articles including keywords pertaining to bats were deemed irrelevant to biodiversity, underscoring the importance of relevance filtering. At the pandemic's onset, we observed increased volume and a significant sentiment shift toward horseshoe bats, which were implicated in the pandemic, but not for other focal taxa. The proposed methods open the door to conservation practitioners applying modern and emerging NLP tools, including LLMs "out of the box," to analyze public perceptions of biodiversity during current events or campaigns.

Autores: Noah Giebink, Amrita Gupta, Diogo Verìssimo, Charlotte H. Chang, Tony Chang, Angela Brennan, Brett Dickson, Alex Bowmer, Jonathan Baillie

Última atualização: 2024-05-02 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2405.01610

Fonte PDF: https://arxiv.org/pdf/2405.01610

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes