Usando Dados de Mídias Sociais pra Estudar Desastres Naturais
A pesquisa usa as informações das redes sociais pra analisar desastres naturais com machine learning.
― 6 min ler
Índice
As redes sociais viraram uma ferramenta valiosa pra pesquisadores que estão de olho em desastres naturais como terremotos e tufões. Uma plataforma bem popular, o Twitter, permite que a galera compartilhe pensamentos e atualizações rápidas, o que é útil pra coletar informações em tempo real sobre esses eventos. Os pesquisadores estão tentando descobrir como usar tweets pra detectar quando desastres naturais rolam, baseado no que os usuários publicam.
Mas um dos principais desafios é entender a linguagem usada nesses tweets. O Processamento de Linguagem Natural (NLP) ajuda a converter palavras em números pra que os computadores consigam analisar e fazer previsões com base nisso. Graças a novas ferramentas de computador, agora tá mais fácil processar texto e analisar informações.
Pra estudar isso, os pesquisadores montaram um sistema usando uma ferramenta chamada TensorFlow, que é um software de código aberto pra Aprendizado de Máquina. Esse sistema coleta e categoriza dados, focando em arquivos de texto relacionados a desastres naturais.
Automatizando a Coleta de Dados com Selenium
O primeiro passo dessa pesquisa foi coletar textos de um site de redes sociais pra pesquisadores chamado ResearchGate. O site permite que os usuários compartilhem vários tipos de conteúdo acadêmico, como artigos e perguntas.
Normalmente, pra um usuário encontrar informações, ele teria que logar na conta e pesquisar por termos específicos. Conforme ele rola a página, mais conteúdo aparece automaticamente. Esse método manual pode ser bem demorado se ele quiser acessar muitos posts sobre um tópico específico.
Pra agilizar esse processo, os pesquisadores usaram uma ferramenta chamada Selenium. O Selenium é feito pra automatizar aplicações web e pode ser combinado com programação em Python. Com o Selenium, os pesquisadores conseguiram criar scripts que rodam em segundo plano enquanto o usuário tá na página.
O script faz várias tarefas:
- Faz login na conta do usuário usando email e senha.
- Busca um termo de pesquisa específico na seção de publicações do site.
- Coleta conteúdo de vários posts automaticamente.
- Continua coletando dados até atingir um limite, como 500 publicações.
Depois que os dados são coletados, eles podem ser salvos em um arquivo de texto pra análise posterior.
Word2Vec: Aprendendo com Dados
A próxima parte da pesquisa focou em como analisar o texto coletado usando um método chamado Word2Vec. Essa técnica ajuda a aprender os significados das palavras baseado no contexto em que são usadas. Existem várias maneiras de fazer isso, mas um modelo eficaz é o modelo skip-gram contínuo.
Esse modelo prevê quais palavras são prováveis de aparecer perto de uma palavra dada em uma frase. Como muitas palavras podem ter significados diferentes dependendo do contexto, esse método ajuda a capturar essas diferenças.
Pra preparar os dados pras análises, os pesquisadores juntaram todos os arquivos de texto em um único documento. Depois, limparam os dados, convertendo todas as palavras pra minúsculas e removendo qualquer pontuação. Isso facilitou a conversão do texto em vetores, que são representações numéricas que podem ser usadas em aprendizado de máquina.
Com o texto processado em vetores, a equipe de pesquisa construiu um modelo de aprendizado de máquina. Eles monitoraram como o modelo se saiu ao longo do tempo usando uma métrica chamada função de perda, que mostra quão bem o modelo faz previsões, e precisão, que indica quão corretas as previsões são.
Analisando o Desempenho do Modelo
Os pesquisadores usaram uma ferramenta chamada TensorBoard pra visualizar o desempenho do modelo. Eles focaram em quão preciso o modelo era em identificar palavras relacionadas a desastres naturais e tentaram entender os vizinhos mais próximos do modelo-palavras que são semelhantes ou relacionadas em significado.
Por exemplo, quando analisaram a palavra "terremoto," conseguiram determinar quais palavras eram mais similares baseadas em seu contexto. Descobriram que termos como "tsunami" também apareciam perto de "terremoto," indicando que o modelo tava indo bem em agrupar palavras relacionadas a desastres.
Os pesquisadores também testaram como diferentes configurações afetavam a precisão do modelo. Eles observaram fatores como tamanho do lote (o número de amostras usadas em uma iteração de treinamento), tamanho da sequência (o número de palavras consideradas em contexto) e tamanho do vocabulário (o número de palavras únicas usadas).
Nos testes deles:
- Descobriram que um tamanho de lote de 20 funcionava melhor, resultando em valores de perda mais baixos.
- Aumentar o tamanho da sequência melhorou a precisão, já que considerar mais palavras juntas oferecia mais contexto.
- O tamanho do vocabulário teve um impacto limitado na precisão, com o modelo se saindo de forma semelhante em uma variedade de contagens de palavras.
Eles também examinaram como a dimensão de incorporação (o número de dimensões usadas pra representar palavras) afetava os resultados. Embora mudanças nesse valor não impactassem significativamente a precisão, dimensões maiores pareciam levar ao overfitting, onde o modelo se tornava muito ajustado aos dados de treinamento.
Conclusão
O objetivo dessa pesquisa era aplicar métodos de aprendizado de máquina pra analisar a linguagem no contexto de desastres naturais. Ao utilizar redes sociais e técnicas de NLP, os pesquisadores pretendiam automatizar a coleta de conteúdo relevante e fazer previsões precisas com base nos dados.
Enquanto trabalhavam na análise, os pesquisadores confirmaram que usar dados de redes sociais poderia ser uma forma eficaz de monitorar desastres naturais em tempo real. Eles descobriram que o modelo de aprendizado de máquina podia identificar com precisão palavras relacionadas a desastres, com a capacidade de agrupar termos similares.
O trabalho futuro pode envolver refinar esses modelos e explorar aplicações adicionais de NLP na pesquisa sobre desastres, melhorando a capacidade de responder e entender perigos naturais com base em dados em tempo real das redes sociais.
Título: Use of social media and Natural Language Processing (NLP) in natural hazard research
Resumo: Twitter is a microblogging service for sending short, public text messages (tweets) that has recently received more attention in scientific comunity. In the works of Sasaki et al. (2010) and Earle et al., (2011) the authors explored the real-time interaction on Twitter for detecting natural hazards (e.g., earthquakes, typhoons) baed on users' tweets. An inherent challenge for such an application is the natural language processing (NLP), which basically consists in converting the words in number (vectors and tensors) in order to (mathematically/ computationally) make predictions and classifications. Recently advanced computational tools have been made available for dealing with text computationally. In this report we implement a NLP machine learning with TensorFlow, an end-to-end open source plataform for machine learning applications, to process and classify evenct based on files containing only text.
Autores: José Augusto Proença Maia Devienne
Última atualização: 2023-04-17 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2304.08341
Fonte PDF: https://arxiv.org/pdf/2304.08341
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.overleaf.com/learn/latex/Learn_LaTeX_in_30_minutes
- https://en.wikibooks.org/wiki/LaTeX/Basics
- https://www.overleaf.com/learn/latex/Mathematical_expressions
- https://en.wikibooks.org/wiki/LaTeX/Mathematics
- https://www.overleaf.com/learn/latex/Inserting_Images
- https://en.wikibooks.org/wiki/LaTeX/Floats,_Figures_and_Captions
- https://www.overleaf.com/learn/latex/Tables
- https://en.wikibooks.org/wiki/LaTeX/Tables
- https://www.overleaf.com/learn/latex/algorithms
- https://en.wikibooks.org/wiki/LaTeX/Algorithms
- https://www.overleaf.com/learn/latex/Code_Highlighting_with_minted
- https://www.overleaf.com/learn/latex/Bibliography_management_in_LaTeX
- https://en.wikibooks.org/wiki/LaTeX/Bibliography_Management
- https://www.tensorflow.org/tutorials/text/word_embeddings
- https://www.tensorflow.org/tutorials/text/word2vec