Simple Science

Ciência de ponta explicada de forma simples

# Informática# Recuperação de informação# Computação e linguagem# Computadores e sociedade

NewsPanda: Uma Ferramenta para Monitoramento Ambiental

Kit de ferramentas automatizado pra acompanhar notícias de conservação e projetos de infraestrutura.

― 7 min ler


NewsPanda: Rastreador deNewsPanda: Rastreador deNotícias de Conservaçãoao meio ambiente e infraestrutura.Monitoramento automatizado para ameaças
Índice

Grupos sem fins lucrativos que focam na proteção do meio ambiente costumam precisar ficar de olho nas notícias relacionadas à Conservação. Isso é especialmente importante em projetos como construção de estradas ou Infraestrutura, já que esses podem causar danos significativos nas áreas de conservação. Porém, achar e acompanhar essas notícias pode ser complicado e demorado. Para ajudar com isso, desenvolvemos um kit de ferramentas que encontra e analisa automaticamente artigos online sobre conservação ambiental e projetos de infraestrutura.

A Necessidade de Monitoramento da Mídia

Toda semana surgem novas ameaças ao nosso meio ambiente, como inundações, caça furtiva e poluição. Se esses problemas não forem resolvidos rapidamente, podem causar danos duradouros. Organizações não governamentais (ONGs) como o Fundo Mundial para a Natureza (WWF) devem monitorar esses eventos ativamente para responder a tempo e participar de discussões importantes.

Enquanto monitorar notícias é essencial para a conservação, não é só sobre o tema geral. Muitas ONGs querem focar em áreas específicas, como projetos de infraestrutura que estão por vir. Esses projetos geralmente duram bastante tempo e podem ter grandes efeitos no meio ambiente. Reconhecer esses projetos cedo pode ajudar a influenciar o planejamento para priorizar resultados ecológicos.

Porém, as informações sobre ameaças à conservação estão por toda parte e vêm de várias fontes. As ONGs costumam depender do boca a boca ou de alguns meios de comunicação específicos, tornando o processo ineficiente e arriscando perder informações cruciais.

NewsPanda: Um Kit de Monitoramento da Mídia

Para atender a essas necessidades, criamos o kit de ferramentas NewsPanda. Essa ferramenta detecta e analisa automaticamente artigos relacionados a conservação e infraestrutura. Ela usa técnicas avançadas de processamento de linguagem para determinar quais artigos são mais relevantes para esses tópicos. O kit foi projetado para economizar tempo e tornar o processo de monitoramento mais eficaz.

Desde seu lançamento pelas equipes do WWF no Reino Unido, Índia e Nepal em fevereiro de 2022, o NewsPanda tem monitorado mais de 80.000 sites e 1.074 locais de conservação. Ajudou a economizar mais de 30 horas de trabalho manual por semana e se expandiu para cobrir 60.000 locais de conservação ao redor do mundo.

Desafios no Monitoramento da Conservação

Criar uma ferramenta como o NewsPanda traz desafios únicos. Um dos principais problemas é que rotular artigos costuma ser caro e demorado. Usamos métodos de aprendizado ativo para focar nos artigos mais importantes, ajudando nosso modelo a aprender de forma eficaz e reduzindo custos.

Outro desafio é que os rótulos iniciais podem ser confusos ou enganosos. Mesmo com um conjunto de critérios para rotular, o processo pode ser subjetivo. Para lidar com isso, adotamos métodos para reduzir erros e melhorar a precisão do modelo.

Como o NewsPanda Foi Desenvolvido

O projeto NewsPanda começou como uma colaboração entre o WWF e a Universidade Carnegie Mellon. A ferramenta foi desenvolvida com cuidado, levando em conta as demandas únicas do setor sem fins lucrativos. O sistema roda semanalmente, coletando e classificando artigos relacionados a desenvolvimentos de conservação.

A Estrutura do Kit

O kit é composto por cinco componentes principais:

  1. Módulo de Recuperação de Informação: Coleta artigos de notícias usando um scraper NewsAPI que mira locais de conservação pré-definidos.
  2. Módulo de Classificação de Relevância: Aqui, os artigos são classificados com base na sua relevância para conservação ou infraestrutura.
  3. Módulo de Pós-processamento de Artigos: Essa etapa extrai informações-chave dos artigos, como palavras-chave e tendências de eventos.
  4. Módulo de Visualização: Artigos relevantes são visualizados nos sistemas GIS do WWF para que as equipes de campo possam inspecionar.
  5. Módulo de Mídia Social: Um bot do Twitter compartilha artigos relevantes com o público.

Na hora de desenvolver esse kit, usamos dois conjuntos de dados importantes para treinar nossos modelos. Um conjunto consistia em artigos previamente rotulados sobre Patrimônios Mundiais. O segundo era mais focado em locais específicos de conservação na Índia e no Nepal.

Como os Artigos São Processados

Depois que os artigos são coletados, passam por várias etapas de processamento. Primeiro, eles são analisados para determinar sua relevância para conservação ou infraestrutura. Depois, extraímos palavras-chave importantes e rastreamos eventos relacionados a esses artigos. Isso ajuda a coletar contexto ao longo do tempo, já que muitas notícias estão conectadas.

Para localização geográfica, associamos artigos aos locais exatos de conservação a que se referem, o que é essencial para visualizar os dados de forma eficaz em nossos sistemas GIS.

Testes e Resultados

Para avaliar o NewsPanda, comparamos ele com vários métodos existentes. Alguns eram modelos simples baseados em palavras-chave, enquanto outros usavam redes neurais avançadas. Os resultados mostraram que o NewsPanda superou os métodos mais simples, alcançando alta precisão e desempenho consistente.

Aprendizado Ativo e Correção de Rótulos Confusos

Tentamos duas abordagens para melhorar nosso modelo: usar aprendizado ativo para selecionar artigos importantes para rotulação e corrigir rótulos confusos. Nossos experimentos indicaram que o aprendizado ativo aumentou significativamente o desempenho do modelo ao escolher estrategicamente quais artigos rotular, em vez de amostrar artigos aleatoriamente.

Implementação e Impacto

Desde seu lançamento, o NewsPanda tem sido utilizado de forma eficaz no campo. Durante a fase piloto, a equipe do WWF forneceu feedback, o que permitiu constantes melhorias ao sistema. A primeira fase significativa de implementação incluiu uma avaliação extensa pelas equipes do WWF no Reino Unido, Índia e Nepal, permitindo a validação e ajustes do kit no mundo real.

Os resultados foram extremamente positivos. A precisão do sistema é alta, o que significa que a maioria dos artigos sinalizados pelo NewsPanda é realmente relevante. A detecção precoce de projetos de infraestrutura permitiu que o WWF participasse de discussões e ações antes que os projetos causassem danos significativos às áreas de conservação.

Transição para Sustentabilidade

Animado com seu sucesso, o WWF planeja integrar o NewsPanda às suas operações permanentes. O sistema expandiu seu alcance global e tem como objetivo cobrir ainda mais locais de conservação e idiomas. Estamos trabalhando em desenvolvimentos adicionais para aprimorar suas capacidades multilíngues e acessar mais fontes locais de notícias.

Essa transição enfatiza a importância de ter um modelo sustentável que possa ser mantido pela equipe do WWF. À medida que a colaboração continua, o objetivo é construir a capacidade interna do WWF para sustentar ferramentas dessa natureza de forma independente.

Lições Aprendidas e Direções Futuras

Ao longo dessa colaboração, emergiram várias lições valiosas. Uma principal é que resolver problemas e desenvolver ferramentas são processos iterativos. Feedback regular e prototipagem rápida podem revelar necessidades imprevistas, levando a melhores soluções.

Além disso, é essencial não negligenciar os sistemas de apoio que tornam a tecnologia eficaz. Por exemplo, os módulos de pós-processamento e visualização são tão críticos para o sucesso do NewsPanda quanto o motor de classificação principal.

Olhando para o futuro, o objetivo é expandir ainda mais o alcance do NewsPanda. Isso envolve mirar novos idiomas e garantir cobertura de fontes de mídia locais, especialmente em regiões onde desenvolvimentos de alto impacto podem não ser amplamente reportados. Passos iniciais já foram dados para treinar o modelo com idiomas e fontes locais, visando captar mais informações relevantes para a conservação.

Conclusão

O NewsPanda representa um avanço significativo em como organizações sem fins lucrativos podem monitorar e responder a notícias relacionadas à conservação e projetos de infraestrutura. Ao automatizar grande parte do processo de coleta de informações, ele libera um tempo valioso para que as ONGs se concentrem na análise e ação. A colaboração contínua entre o WWF e a Universidade Carnegie Mellon destaca o potencial da tecnologia para ter um impacto significativo nos esforços de conservação em todo o mundo. À medida que o NewsPanda continua a crescer e evoluir, ele terá um papel vital em proteger nosso meio ambiente para as futuras gerações.

Fonte original

Título: NewsPanda: Media Monitoring for Timely Conservation Action

Resumo: Non-governmental organizations for environmental conservation have a significant interest in monitoring conservation-related media and getting timely updates about infrastructure construction projects as they may cause massive impact to key conservation areas. Such monitoring, however, is difficult and time-consuming. We introduce NewsPanda, a toolkit which automatically detects and analyzes online articles related to environmental conservation and infrastructure construction. We fine-tune a BERT-based model using active learning methods and noise correction algorithms to identify articles that are relevant to conservation and infrastructure construction. For the identified articles, we perform further analysis, extracting keywords and finding potentially related sources. NewsPanda has been successfully deployed by the World Wide Fund for Nature teams in the UK, India, and Nepal since February 2022. It currently monitors over 80,000 websites and 1,074 conservation sites across India and Nepal, saving more than 30 hours of human efforts weekly. We have now scaled it up to cover 60,000 conservation sites globally.

Autores: Sedrick Scott Keh, Zheyuan Ryan Shi, David J. Patterson, Nirmal Bhagabati, Karun Dewan, Areendran Gopala, Pablo Izquierdo, Debojyoti Mallick, Ambika Sharma, Pooja Shrestha, Fei Fang

Última atualização: 2023-04-30 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.01503

Fonte PDF: https://arxiv.org/pdf/2305.01503

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes