Simple Science

La science de pointe expliquée simplement

# Sciences de la santé# Santé publique et mondiale

Classer les tweets sur les troubles de l'enfance

Une étude classe les tweets des parents sur les troubles de l'enfance.

― 6 min lire


Analyser des Tweets surAnalyser des Tweets surles troublesl'enfance.des tweets liés aux troubles deUne étude améliore la classification
Table des matières

Les troubles de l'enfance comme le TDAH, l'Autisme, les retards de langage et l'Asthme peuvent vraiment avoir un impact sur la croissance et la santé d'un enfant, et souvent ces problèmes persistent à l'âge adulte. Aux États-Unis, environ 1 enfant sur 6 entre 3 et 17 ans a un problème de développement, avec le TDAH et l'autisme qui sont des exemples fréquents. Des études antérieures ont utilisé Twitter pour trouver des auto-évaluations de ces conditions mais n'ont pas vraiment regardé les tweets où les parents parlent de leurs enfants ayant ces problèmes. Ça ouvre la porte à l'utilisation des données Twitter pour en apprendre davantage sur ces conditions chez les enfants.

Description de la tâche et des données

Un atelier appelé SMM4H-2024 se concentre sur l'utilisation de grands modèles de langage pour étudier les réseaux sociaux. On a participé à une tâche spécifique qui consiste à classifier des tweets. L'objectif est de distinguer les tweets de parents qui mentionnent avoir un enfant avec le TDAH, l'autisme, des retards de langage ou de l'asthme, des tweets qui mentionnent juste ces troubles sans indiquer qu'ils concernent leurs enfants.

Trois ensembles de données ont été fournis : un pour l'entraînement, un pour la validation et un pour les tests. Les ensembles d'entraînement et de validation étaient étiquetés, tandis que l'ensemble de test ne l'était pas. Tous les ensembles de données consistent en des tweets d'utilisateurs qui ont signalé leur grossesse sur Twitter et mentionnent un enfant avec un trouble, ainsi que des tweets qui mentionnent juste un trouble. Le nombre total de tweets est de 7 398 pour l'entraînement, 389 pour la validation et 1 947 pour les tests.

Un classificateur de référence utilisant un modèle spécifique a obtenu un Score F1 de 0,927 pour identifier les tweets qui rapportent avoir un enfant avec un trouble dans les données de test.

Modèles utilisés

On a testé trois modèles de langage différents : BioLinkBERT, RoBERTa et BERTweet. BioLinkBERT est bon pour comprendre le langage médical ; RoBERTa est solide dans les tâches de langage général ; et BERTweet est particulièrement efficace pour les tweets. On a entraîné chaque modèle en utilisant l'ensemble de données d'entraînement et vérifié comment ils se comportaient avec l'ensemble de validation.

Régime d'entraînement

Des informations détaillées sur la façon dont on a entraîné les modèles sont incluses dans un appendice. Les paramètres clés pour l'entraînement, comme le taux d'apprentissage et la taille des lots, ont été décidés dans les sections suivantes.

Optimisation des hyperparamètres

On a optimisé les paramètres des modèles à l'aide d'un outil qui aide à gérer et à régler les modèles d'apprentissage automatique. Plus de détails sur les paramètres se trouvent également dans un appendice.

Expériences préliminaires

Chaque modèle choisi a été entraîné pendant trois rounds, avec dix cycles d'entraînement pour chaque round. Après chaque cycle, on a vérifié le score F1 pour voir à quel point chaque modèle réussissait avec les données de validation. On a sauvegardé la meilleure performance de chaque modèle pour chaque round. Les résultats sont résumés dans un appendice.

D'après nos constatations, RoBERTa et BERTweet ont montré une performance similaire sur les données de validation, les deux faisant beaucoup mieux que BioLinkBERT, même si BioLinkBERT avait été entraîné sur un grand ensemble de données médicales. On a donc décidé de laisser tomber BioLinkBERT pour les tests suivants.

Stratégie d'ensemblage

Quand on entraîne de grands modèles sur des petits ensembles de données, c'est parfois compliqué d'obtenir des résultats stables car de petits changements dans les données d'entraînement ou des points de départ aléatoires peuvent mener à des résultats différents. Pour résoudre ce problème et améliorer la fiabilité de nos prédictions, on a combiné plusieurs modèles. On a créé deux groupes distincts de modèles en utilisant les meilleurs résultats de nos essais avec RoBERTa et BERTweet. Tous les modèles de chaque groupe utilisaient les mêmes paramètres, ne variant que par leurs conditions initiales aléatoires. Ensuite, on a utilisé une méthode de vote pour arriver à une prédiction finale basée sur ces modèles.

Les résultats ont montré que le groupe de modèles BERTweet a mieux performé que le groupe RoBERTa. C'est surtout parce que les variations de performance au cours des trois rounds étaient moins importantes pour BERTweet. On a aussi remarqué que les résultats du groupe BERTweet correspondaient au meilleur résultat d'un des essais RoBERTa.

Résultats de performance

Puisque le meilleur essai RoBERTa et le groupe BERTweet avaient un succès similaire avec les données de validation, on a testé les deux sur un ensemble de données de test inédit. Les résultats ont montré que le groupe BERTweet avait surpassé la performance moyenne observée dans toutes les soumissions d'équipe de manière significative, tout en dépassant le classificateur de référence de 1,18%. Même si les deux classificateurs ont eu des performances similaires dans les tests de validation, le groupe BERTweet a fait beaucoup mieux quand on a regardé les données de test. Une raison pourrait être que les différentes exécutions du modèle BERTweet ont peut-être capturé divers motifs dans les données.

Quand on ajuste des modèles de langage complexes, on fait souvent face à une incohérence de performance avec de petits ensembles de données. Pour y remédier, on a combiné les prédictions de plusieurs versions du modèle BERTweet pour obtenir de meilleurs résultats. Cette approche a mené à des améliorations notables de nos scores finals.

Conclusion

Le meilleur essai de RoBERTa et le groupe BERTweet ont montré de bonnes performances sur l'ensemble de validation. Cependant, le groupe BERTweet a excellé quand on l'a évalué sur les données de test, atteignant des scores plus élevés par rapport au modèle initial utilisé comme référence. Le succès du groupe BERTweet suscite de l'intérêt pour examiner davantage comment ajouter plus de tours au groupe pourrait influencer la performance. Cette enquête pourrait conduire à des résultats encore meilleurs dans la compréhension et la classification des tweets liés aux troubles de l'enfance. En gros, notre travail suggère que combiner les résultats de plusieurs modèles peut améliorer les prédictions, surtout quand on traite de petites quantités de données.

Articles similaires