Évaluer la crédibilité des infos santé en ligne
Examiner comment identifier des pages web de santé fiables.
― 8 min lire
Table des matières
Ces derniers temps, il y a eu une énorme augmentation d'infos sur Internet créées par des utilisateurs. Cette montée a entraîné la propagation de fausses informations, surtout sur des sujets liés à la santé. Le défi de lutter contre la désinformation est important et a été abordé de plusieurs manières, de la détection des fake news à la gestion de la manipulation d'opinion. Un domaine qui a attiré l'attention est la diffusion d'infos de santé en ligne.
Beaucoup des premières tentatives de gestion de la désinformation se concentraient sur la façon dont les utilisateurs interagissaient avec le contenu web. Cependant, de nouvelles méthodes automatisées ont émergé, surtout depuis le début de la pandémie de COVID-19. Ces méthodes s'appuient souvent sur des caractéristiques tirées du contenu web lui-même et utilisent des techniques d'apprentissage automatique. Notre focus ici est sur le contenu lié à la santé sur les pages web, où la recherche peut encore aider à identifier ce qui rend une page crédible ou non.
Détection de la désinformation sur la santé
Ce travail vise à améliorer notre évaluation de la fiabilité des pages web liées à la santé. Pour ce faire, on va utiliser une méthode appelée Web2Vec, qui a été utilisée au départ pour détecter les pages de phishing. Web2Vec crée une représentation spéciale des pages web en regardant leur structure, leur contenu et leurs liens. On va appliquer cette représentation pour aider à déterminer si les infos de santé sont crédibles.
Un problème principal, c'est que beaucoup de gens ont du mal à comprendre les informations de santé, surtout quand il y a moins d'experts médicaux disponibles en ligne pour les aider. Ça crée un besoin de solutions automatisées pour évaluer la qualité du contenu de santé trouvé sur le web.
Travaux connexes
En examinant le problème d'évaluation des pages web liées à la santé, il y a plusieurs approches à considérer. Plusieurs études ont regardé comment les utilisateurs évaluent la fiabilité des informations de santé en ligne, souvent en se concentrant sur les interactions avec les utilisateurs via des questionnaires ou d'autres méthodes.
Les facteurs qui influencent la façon dont les utilisateurs évaluent l'information incluent la source du contenu, la manière dont l'information est présentée, et sa pertinence. Les utilisateurs ont souvent des sentiments partagés vis-à-vis des expériences personnelles et des informations factuelles. Certains se concentrent plus sur des faits "objectifs", tandis que d'autres peuvent sentir qu'il y a un déséquilibre dans la façon dont certains faits sont présentés.
Du côté automatisé, des études récentes ont utilisé des données provenant de différentes ressources pour évaluer la fiabilité des pages web médicales. Des techniques ont été développées qui se concentrent sur des aspects de qualité comme l'exactitude, la Crédibilité et l'actualité. Certaines méthodes utilisent des caractéristiques existantes comme la structure d'une page et la présence de certains liens pour déterminer la crédibilité.
Web2Vec : Une nouvelle approche
Le modèle Web2Vec utilise une représentation combinée de l'URL d'une page web, de son contenu et de sa structure. Il emploie une approche hybride utilisant un Réseau de Neurones Convolutionnels (CNN) et un modèle appelé BiLSTM. Cette combinaison permet d'extraire des caractéristiques importantes en examinant la page web à différents niveaux.
Le processus commence par le parsing de la page HTML pour rassembler divers éléments : les liens, le contenu et la structure. Le contenu est découpé en séquences significatives, tandis que les liens sont analysés pour comprendre comment ils se connectent à d'autres pages. La représentation est construite à partir de ces éléments.
Pour la représentation du contenu, une couche d'embedding pré-entraînée est utilisée pour intégrer des connaissances sur les termes médicaux. Cela vise à rendre le modèle plus efficace pour comprendre le contenu lié à la santé.
Extraction de caractéristiques
La partie extraction de caractéristiques utilise un CNN pour identifier des caractéristiques locales à partir des données. Le CNN est structuré pour inclure à la fois une couche de convolution, qui trouve des motifs, et une couche de pooling, qui aide à réduire la quantité de données tout en conservant les parties importantes.
La couche BiLSTM traite ensuite cette info dans les deux sens, lui permettant de maintenir l'ordre et les relations entre les données. Ça veut dire qu'il peut regarder le contexte de l'information, ce qui est important pour identifier correctement la crédibilité.
Pour éviter le sur-apprentissage pendant l'entraînement, des techniques comme le dropout et la régularisation sont utilisées. Cela aide à s'assurer que le modèle apprend à généraliser à partir des données d'entraînement plutôt qu'à juste les mémoriser.
Données utilisées pour l'évaluation
Dans ce travail, on a évalué l'efficacité de l'approche Web2Vec en utilisant divers ensembles de données. Cependant, trouver des ensembles de données de santé disponibles publiquement avec des évaluations de crédibilité peut être difficile. Un ensemble de données considéré inclut des pages web provenant de différents domaines comme la santé, la finance et la politique, chacune évaluée pour sa crédibilité sur une échelle.
Un autre ensemble de données était une collection équilibrée de pages web fiables et non fiables. Dans ce cas, les sources fiables ont été sélectionnées sur des sites de santé accrédités, tandis que les non fiables ont été découvertes par des recherches.
Un troisième ensemble de données se concentrait spécifiquement sur des sujets d'e-santé, où les évaluations étaient converties en un système binaire pour classer les pages comme crédibles ou non crédibles.
Baselines et mesures
Pour comprendre comment le modèle Web2Vec performe, il est comparé à des solutions existantes dans le domaine. Plusieurs modèles de base ont été identifiés : ceux qui se concentrent uniquement sur des caractéristiques textuelles et ceux qui utilisent plusieurs types de caractéristiques.
Les mesures clés pour évaluer la performance du modèle incluent l'exactitude, la mesure F1 et l'aire sous la courbe (AUC). Ces mesures sont couramment utilisées dans les études traitant de la détection de désinformation et de l'évaluation de crédibilité.
Résultats et discussion
Les résultats montrent à quel point l'approche Web2Vec est efficace pour identifier la désinformation sur la santé. Comparé aux méthodes de base, notre modèle a montré de fortes performances dans la détection d'informations de santé crédibles.
En particulier, l'ajout des embeddings médicaux pré-entraînés et la prise en compte de la structure et des liens des pages web ont considérablement amélioré l'exactitude du modèle. L'analyse a montré qu'être conscient du contexte et du sens sémantique du contenu joue un rôle crucial dans l'amélioration de la confiance dans les pages web liées à la santé.
Ce travail marque une étape importante dans la compréhension de la meilleure façon de structurer et de construire des modèles pour traiter la désinformation dans les sujets de santé. Les résultats suggèrent que les futures investigations ne devraient pas seulement se concentrer sur le texte, mais aussi considérer comment les caractéristiques structurelles et les connaissances externes peuvent améliorer la qualité des informations de santé en ligne.
Conclusion
La propagation de la désinformation, surtout dans les domaines liés à la santé, représente un défi sérieux. En utilisant l'approche Web2Vec, on a montré qu'il est possible de développer des systèmes automatisés qui classifient efficacement le contenu de santé comme crédible ou pas. Ce modèle fournit une base pour d'autres recherches sur ce qui rend les éléments les plus efficaces dans la détermination de la fiabilité des informations de santé en ligne.
Continuer à travailler dans ce domaine pourrait conduire à de meilleurs outils pour les utilisateurs cherchant des infos de santé fiables dans un environnement en ligne complexe. Les études futures pourraient approfondir comment diverses caractéristiques, structurelles et contextuelles, peuvent améliorer l'exactitude de la détection de désinformation, surtout dans un domaine aussi critique que la santé.
Titre: Health Misinformation Detection in Web Content via Web2Vec: A Structural-, Content-based, and Context-aware Approach based on Web2Vec
Résumé: In recent years, we have witnessed the proliferation of large amounts of online content generated directly by users with virtually no form of external control, leading to the possible spread of misinformation. The search for effective solutions to this problem is still ongoing, and covers different areas of application, from opinion spam to fake news detection. A more recently investigated scenario, despite the serious risks that incurring disinformation could entail, is that of the online dissemination of health information. Early approaches in this area focused primarily on user-based studies applied to Web page content. More recently, automated approaches have been developed for both Web pages and social media content, particularly with the advent of the COVID-19 pandemic. These approaches are primarily based on handcrafted features extracted from online content in association with Machine Learning. In this scenario, we focus on Web page content, where there is still room for research to study structural-, content- and context-based features to assess the credibility of Web pages. Therefore, this work aims to study the effectiveness of such features in association with a deep learning model, starting from an embedded representation of Web pages that has been recently proposed in the context of phishing Web page detection, i.e., Web2Vec.
Auteurs: Rishabh Upadhyay, Gabriella Pasi, Marco Viviani
Dernière mise à jour: 2024-07-05 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.07914
Source PDF: https://arxiv.org/pdf/2407.07914
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://metacpan.org/release/WWW-Google-PageRank/
- https://www.hon.ch/cgi-bin/HONcode/principles.pl?English
- https://www.discern.org.uk/
- https://knowlife.mpi-inf.mpg.de/
- https://keras.io/api/layers/core_layers/embedding/
- https://www.hon.ch/en/
- https://clefehealth.imag.fr/?page_id=610
- https://scikit-learn.org/
- https://goo.gl/VLCRBB