Simple Science

La science de pointe expliquée simplement

# Physique# Calcul et langage# Géophysique

Utiliser les données des réseaux sociaux pour étudier les catastrophes naturelles

La recherche utilise les infos des réseaux sociaux pour analyser les catastrophes naturelles avec l'apprentissage automatique.

― 6 min lire


Apprentissage automatiqueApprentissage automatiquepour des infos sur lesdésastresles aléas naturels.Analyser des tweets pour mieux prédire
Table des matières

Les réseaux sociaux sont devenus un outil super utile pour les chercheurs qui étudient les catastrophes naturelles comme les tremblements de terre et les typhons. Une plateforme en particulier, Twitter, permet aux gens de partager rapidement leurs pensées et mises à jour, ce qui peut être génial pour obtenir des infos en temps réel sur ces événements. Les chercheurs cherchent à savoir comment utiliser les tweets pour détecter quand des catastrophes naturelles se produisent en fonction de ce que les utilisateurs publient.

Mais un des gros défis, c'est de comprendre le langage utilisé dans ces tweets. Le Traitement du langage naturel (NLP) aide à convertir les mots en chiffres pour que les ordinateurs puissent analyser et faire des prédictions basées là-dessus. Grâce à de nouveaux outils informatiques, c'est plus facile maintenant de traiter du texte et d'analyser les infos.

Pour étudier tout ça, les chercheurs ont mis en place un système avec un outil appelé TensorFlow, qui est un logiciel open-source pour l'apprentissage machine. Ce système collecte et catégorise des données, en se concentrant sur des fichiers texte liés aux catastrophes naturelles.

Automatisation de la collecte de données avec Selenium

La première étape de cette recherche a consisté à rassembler du texte sur un site de réseaux sociaux pour chercheurs appelé ResearchGate. Ce site permet aux utilisateurs de partager différents types de contenus académiques, comme des papiers et des questions.

En général, pour trouver des infos, un utilisateur devait se connecter à son compte et rechercher des termes spécifiques. En scrollant vers le bas, plus de contenu apparaissait automatiquement. Cette approche manuelle peut être longue si l'utilisateur veut accéder à plein de publications sur un sujet précis.

Pour accélérer le processus, les chercheurs ont utilisé un outil appelé Selenium. Selenium est conçu pour automatiser les applications web et peut être combiné avec la programmation en Python. Avec Selenium, les chercheurs pouvaient créer des scripts qui tournent en arrière-plan pendant que l'utilisateur reste sur la page.

Le script effectue plusieurs tâches :

  • Il se connecte au compte de l'utilisateur en utilisant son email et son mot de passe.
  • Il cherche un terme de recherche spécifique dans la section publications du site.
  • Il collecte du contenu de plusieurs publications automatiquement.
  • Il continue à rassembler des données jusqu'à atteindre une limite, comme 500 publications.

Une fois les données collectées, elles peuvent être enregistrées dans un fichier texte pour une analyse ultérieure.

Word2Vec : Apprendre à partir des données

La suite de la recherche s'est concentrée sur l'analyse du texte collecté en utilisant une méthode appelée Word2Vec. Cette technique aide à apprendre les significations des mots en fonction du contexte dans lequel ils sont utilisés. Il existe différentes manières de faire ça, mais un modèle efficace s'appelle le modèle skip-gram continu.

Ce modèle prédit quels mots sont susceptibles d'apparaître près d'un mot donné dans une phrase. Comme de nombreux mots peuvent avoir des significations différentes selon leur contexte, cette méthode aide à saisir ces différences.

Pour préparer les données pour l'analyse, les chercheurs ont combiné tous les fichiers texte en un seul document. Ils ont ensuite nettoyé les données en mettant tous les mots en minuscules et en enlevant la ponctuation. Ça a rendu plus facile la conversion du texte en vecteurs, qui sont des représentations numériques utilisées dans l'apprentissage machine.

Avec le texte transformé en vecteurs, l'équipe de recherche a construit un modèle d'apprentissage machine. Ils ont suivi la performance du modèle au fil du temps en utilisant une métrique appelée fonction de perte, qui montre à quel point le modèle fait de bonnes prédictions, et précision, qui indique à quel point les prédictions sont correctes.

Analyse de la performance du modèle

Les chercheurs ont utilisé un outil appelé TensorBoard pour visualiser la performance du modèle. Ils se sont concentrés sur la précision du modèle à identifier des mots liés aux catastrophes naturelles et ont cherché à comprendre les voisins les plus proches du modèle-des mots qui sont similaires ou liés en signification.

Par exemple, en examinant le mot "tremblement de terre", ils pouvaient déterminer quels mots étaient les plus similaires selon leur contexte. Ils ont découvert que des termes comme "tsunami" apparaissaient aussi près de "tremblement de terre", ce qui indiquait que le modèle s'en sortait bien pour regrouper des mots liés aux catastrophes.

Les chercheurs ont également testé comment différents réglages affectaient la précision du modèle. Ils ont regardé des facteurs comme la taille du lot (le nombre d'échantillons utilisés dans une itération d'entraînement), la taille de la séquence (le nombre de mots considérés dans le contexte) et la taille du vocabulaire (le nombre de mots uniques utilisés).

D'après leurs tests :

  • Ils ont découvert qu'une taille de lot de 20 fonctionnait le mieux, entraînant des valeurs de perte plus faibles.
  • Augmenter la taille de la séquence a amélioré la précision, car considérer plus de mots ensemble fournissait plus de contexte.
  • La taille du vocabulaire avait un impact limité sur la précision, le modèle performait de manière similaire sur une gamme de comptes de mots.

Ils ont aussi examiné comment la dimension de l'embedding (le nombre de dimensions utilisées pour représenter les mots) affectait leurs résultats. Bien que les changements à cette valeur n'aient pas eu d'impact significatif sur la précision, des dimensions plus grandes semblaient entraîner un surajustement, où le modèle devenait trop adapté aux données d'entraînement.

Conclusion

Le but de cette recherche était d'appliquer des méthodes d'apprentissage machine pour analyser le langage dans le contexte des catastrophes naturelles. En utilisant les réseaux sociaux et les techniques NLP, les chercheurs visaient à automatiser la collecte de contenu pertinent et à faire des prédictions précises basées sur les données.

À mesure qu'ils avançaient dans leur analyse, les chercheurs ont confirmé que l'utilisation des données des réseaux sociaux pouvait être un moyen efficace de surveiller les catastrophes naturelles en temps réel. Ils ont constaté que leur modèle d'apprentissage machine pouvait identifier avec précision des mots liés aux catastrophes, avec la capacité de regrouper des termes similaires ensemble.

Les travaux futurs pourraient impliquer de peaufiner ces modèles et d'explorer d'autres applications du NLP dans la recherche sur les catastrophes, améliorant ainsi la capacité à répondre et à comprendre les dangers naturels basés sur des données en temps réel provenant des réseaux sociaux.

Source originale

Titre: Use of social media and Natural Language Processing (NLP) in natural hazard research

Résumé: Twitter is a microblogging service for sending short, public text messages (tweets) that has recently received more attention in scientific comunity. In the works of Sasaki et al. (2010) and Earle et al., (2011) the authors explored the real-time interaction on Twitter for detecting natural hazards (e.g., earthquakes, typhoons) baed on users' tweets. An inherent challenge for such an application is the natural language processing (NLP), which basically consists in converting the words in number (vectors and tensors) in order to (mathematically/ computationally) make predictions and classifications. Recently advanced computational tools have been made available for dealing with text computationally. In this report we implement a NLP machine learning with TensorFlow, an end-to-end open source plataform for machine learning applications, to process and classify evenct based on files containing only text.

Auteurs: José Augusto Proença Maia Devienne

Dernière mise à jour: 2023-04-17 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2304.08341

Source PDF: https://arxiv.org/pdf/2304.08341

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires