Melhorando Ferramentas de Geolocalização para Esforços Humanitários
Avanços nas ferramentas de geolocalização melhoram a precisão da ajuda humanitária e reduzem preconceitos.
― 9 min ler
Índice
Geolocalização é o processo de determinar a localização física de uma pessoa ou objeto. No trabalho humanitário, saber onde a ajuda é necessária é fundamental. Isso inclui identificar grupos vulneráveis, entender problemas em andamento e saber onde os recursos estão disponíveis. As organizações humanitárias criam muitos documentos e relatórios, resultando em uma grande quantidade de texto que precisa ser analisada.
Avanços recentes em tecnologia de Processamento de Linguagem Natural (PLN) podem ajudar a extrair informações chave desses relatórios. No entanto, o desempenho das ferramentas atuais de extração de informações não é bem compreendido, nem o Viés que pode existir nelas.
Este trabalho tem como objetivo criar recursos melhores para processar textos humanitários. Ele se concentra na melhoria de ferramentas que identificam nomes de locais específicos nos textos, conhecidas como ferramentas de Reconhecimento de Entidade Nomeada (REN). As duas ferramentas de REN populares utilizadas são Spacy e roBERTa. Introduzimos um método chamado FeatureRank que conecta locais identificados a um banco de dados abrangente de nomes geográficos conhecido como GeoNames.
Descobrimos que treinar essas ferramentas com dados de documentos humanitários não só melhora sua precisão, mas também ajuda a reduzir o viés que favorece locais em países ocidentais. Nosso estudo mostra que precisamos de mais recursos de documentos não ocidentais para garantir que essas ferramentas funcionem bem em diversos contextos.
Entendendo o Problema
Os esforços humanitários geram enormes quantidades de dados e relatórios de uma ampla gama de organizações que atuam ao redor do mundo. Por exemplo, a Federação Internacional das Sociedades da Cruz Vermelha e do Crescente Vermelho atua em 192 países, com quase 14 milhões de voluntários.
Para gerenciar as informações produzidas, ferramentas como a Plataforma de Entrada e Exploração de Dados (DEEP) foram criadas. Essa plataforma ajuda as organizações a compilar e organizar sua documentação.
Num mundo transbordando de informações, a extração automatizada de informações pode facilitar a busca por insights úteis. O progresso recente em Aprendizado Profundo e PLN permite identificar detalhes significativos nos textos e categorizá-los, o que pode ajudar na troca eficaz de conhecimento.
A geolocalização é um aspecto importante do trabalho humanitário. Ela abrange áreas amplas, desde países inteiros até locais pequenos como vilarejos ou campos de refugiados. Informações de localização precisas são cruciais, especialmente à luz dos Objetivos de Desenvolvimento Sustentável, que buscam garantir que ninguém seja esquecido quando se trata de apoio.
Infelizmente, muitas fontes de dados para treinar modelos mostram um viés em relação a locais ocidentais. Muitos bancos de dados de localização favorecem os EUA e outras nações ocidentais, enquanto fontes alternativas como Twitter e Wikipedia não estão tão bem representadas em países do sul global.
Para resolver esse problema, nosso objetivo é criar ferramentas que processem com precisão dados humanitários diversos, garantindo que todos os países sejam tratados de forma justa na coleta de informações.
Criando uma Ferramenta de Extração de Geolocalização
Neste estudo, colaboramos com parceiros humanitários para produzir uma ferramenta especializada em extração de geolocalização voltada para o processamento de documentos de projetos humanitários. Essa ferramenta opera em duas tarefas principais:
- Geotagging - Identificando segmentos de texto que se referem a locais geográficos.
- Geocoding - Associando esses locais identificados a coordenadas geográficas exatas.
Contribuímos com dois conjuntos de dados para essas tarefas, sendo um focado em geotagging e o outro em geocoding. Relatórios humanitários são anotados por especialistas para identificar possíveis nomes de locais, que são então vinculados a entradas no GeoNames, um vasto banco de dados geográfico.
Usando esses conjuntos de dados anotados, melhoramos o desempenho das ferramentas de REN existentes, alcançando taxas de precisão mais altas em nossos conjuntos de dados-alvo. O novo método de geocoding, FeatureRank, é avaliado em relação a outras abordagens básicas na literatura.
Literatura Relacionada
O Reconhecimento de Entidade Nomeada (REN) identifica entidades importantes nos textos, normalmente focando em pessoas, organizações e locais. Modelos iniciais usavam métodos tradicionais de aprendizado de máquina, mas os avanços desde 2011 viram a introdução de redes neurais, que permitem a construção de modelos mais adaptáveis.
Modelos grandes pré-treinados, como o BERT, aprimoraram as capacidades dos sistemas de PLN, permitindo uma representação eficaz do texto sem necessidade de acesso direto a grandes quantidades de dados.
No entanto, muito poucos estudos abordaram especificamente o REN geográfico em contextos humanitários. A maioria das abordagens focou no processamento geral de texto, com aplicação limitada aos desafios únicos dos dados humanitários.
Essa falta de atenção ao REN geográfico é significativa, especialmente ao considerar os viés que podem surgir da dependência exclusiva de dados focados no Ocidente.
Coleta e Anotação de Dados
Para construir nossos conjuntos de dados, usamos informações do banco de dados HumSet, que é parte da plataforma DEEP. Cada documento nesse banco de dados inclui trechos relevantes que foram anotados de acordo com estruturas de análise humanitária. Esses documentos vêm de várias fontes, incluindo relatórios de organizações humanitárias e artigos da mídia.
O conjunto de dados é multilíngue, com a maioria em inglês, espanhol e francês. Os documentos incluem vários tipos de conteúdo, desde texto até imagens e tabelas. Usamos um parser para extrair e limpar o texto enquanto descartamos elementos não textuais.
Realizamos duas tarefas principais de anotação: geotagging e geocoding.
Anotação: Geotagging
Para geotagging, escolhemos 500 documentos em inglês do banco de dados HumSet. Essa seleção visa incluir o maior número possível de locais diferentes, mantendo o controle da distribuição de países no conjunto de dados.
Usamos pré-anotações para facilitar o processo de rotulagem. Isso envolve rodar modelos básicos para sugerir possíveis locais no texto, que os anotadores podem revisar e corrigir.
Os anotadores categorizam os termos de localização como literais (referindo-se diretamente a um lugar) ou associativos (indicando uma relação com um lugar sem mencioná-lo diretamente).
Conjunto de Dados de Geotagging Anotado
O conjunto de dados anotados resultantes inclui mais de 11.000 nomes de locais extraídos dos 500 documentos selecionados.
Os locais mais mencionados em nosso conjunto de dados incluem Líbia, Síria e Afeganistão, destacando áreas de preocupação humanitária contínua.
Anotação: Geocoding
O segundo conjunto de dados anotados apoia a tarefa de geocoding, onde os nomes de locais identificados são vinculados às suas coordenadas geográficas. Para isso, usamos o banco de dados GeoNames, que contém milhões de entradas geográficas.
Preparamos os toponímos para análise através de processos de limpeza e correspondência cuidadosos. Nossa equipe de anotação, liderada por especialistas, trabalha na correspondência desses nomes toponímicos às entradas correspondentes no GeoNames.
Personalizando Geolocalização para Textos Humanitários
Em seguida, avaliamos os métodos de geotagging e os otimizamos com nossos dados anotados. Avaliamos o desempenho dos modelos de REN Spacy e roBERTa e utilizamos tanto a pontuação de correspondência exata quanto parcial.
Descobrimos que treinar esses modelos com dados humanitários adicionais melhora significativamente seu desempenho. Além disso, notamos que os modelos se tornam menos tendenciosos à medida que são ajustados.
Nossos achados indicam que combinar a saída de ambos os modelos pode levar a resultados ainda melhores, particularmente na busca por um maior número de correspondências corretas.
Abordagens para Geocoding
Avalíamos métodos de geocoding existentes na literatura, que se concentram em resolver toponímos para locais específicos. Um método favorece pontos de referência não ambíguos do texto, enquanto outro agrupa locais candidatos com base na proximidade.
No entanto, propomos uma abordagem personalizada de geocoding baseada em recursos que considera não apenas a distância geográfica, mas também características populacionais e geopolíticas. Esse método, chamado FeatureRank, avalia candidatos com base em vários critérios e os classifica de acordo.
Durante nossa avaliação, comparamos o desempenho do FeatureRank contra métodos básicos e observamos que nosso método personalizado gera resultados superiores.
Estudo de Aplicação
Finalmente, aplicamos nossa extração de toponimos ajustada e o algoritmo de geocoding personalizado a um grande conjunto de dados de documentos humanitários. Embora não tenhamos uma verdade de referência para validação precisa, analisamos os viés nos locais identificados tanto pelos modelos básicos quanto pelas nossas versões ajustadas.
Observamos que os modelos básicos tendem a destacar mais locais nos EUA e na Europa, refletindo um viés ocidental. Em contraste, nossos modelos ajustados indicam uma distribuição mais equilibrada de locais identificados em várias regiões, incluindo áreas não cobertas nos dados de treinamento.
Conclusão
Ao longo do nosso trabalho, mostramos que dados de treinamento do setor humanitário podem melhorar o desempenho das ferramentas de REN para geolocalização. Isso não só melhora a precisão, mas também parece reduzir viéses que favorecem locais ocidentais.
Nossas descobertas ressaltam a importância de avaliações sistemáticas para detectar viéses nas ferramentas de extração de dados. À medida que continuamos a aprimorar essas ferramentas, é essencial atender às necessidades das populações vulneráveis de forma eficaz.
Mais trabalho é necessário para aprimorar as capacidades desses modelos e garantir que eles possam se adaptar ao cenário em evolução das necessidades humanitárias. Esperamos que os recursos e diretrizes fornecidos neste estudo incentivem novos avanços nesta área.
Título: Leave no Place Behind: Improved Geolocation in Humanitarian Documents
Resumo: Geographical location is a crucial element of humanitarian response, outlining vulnerable populations, ongoing events, and available resources. Latest developments in Natural Language Processing may help in extracting vital information from the deluge of reports and documents produced by the humanitarian sector. However, the performance and biases of existing state-of-the-art information extraction tools are unknown. In this work, we develop annotated resources to fine-tune the popular Named Entity Recognition (NER) tools Spacy and roBERTa to perform geotagging of humanitarian texts. We then propose a geocoding method FeatureRank which links the candidate locations to the GeoNames database. We find that not only does the humanitarian-domain data improves the performance of the classifiers (up to F1 = 0.92), but it also alleviates some of the bias of the existing tools, which erroneously favor locations in the Western countries. Thus, we conclude that more resources from non-Western documents are necessary to ensure that off-the-shelf NER systems are suitable for the deployment in the humanitarian sector.
Autores: Enrico M. Belliardo, Kyriaki Kalimeri, Yelena Mejova
Última atualização: 2023-09-06 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.02914
Fonte PDF: https://arxiv.org/pdf/2309.02914
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://dl.acm.org/ccs.cfm
- https://thedeep.io/
- https://datafriendlyspace.org/
- https://www.geonames.org/
- https://spacy.io/models/en
- https://huggingface.co/Davlan/xlm-roberta-base-wikiann-ner
- https://neuroner.com/
- https://github.com/the-deep/deepex
- https://labelstud.io/
- https://huggingface.co/datasets/wikiann
- https://github.com/embelliardo/HumSet_geolocation_annotations
- https://www.geonames.org/about.html
- https://whoosh.readthedocs.io/en/latest/intro.html
- https://arxiv.org/pdf/1808.05946.pdf