Simple Science

La science de pointe expliquée simplement

# Sciences de la santé# Informatique de santé

L'impact des facteurs sociaux sur les résultats de santé

Explorer comment l'éducation, la race et la pauvreté influencent la santé aux États-Unis.

― 10 min lire


Facteurs sociaux etFacteurs sociaux etdisparités de santédans les résultats de santé.Examiner le rôle des facteurs sociaux
Table des matières

Aux États-Unis, des facteurs sociaux comme l'éducation, la race et la pauvreté jouent un rôle énorme sur la santé en général. Des études montrent que ces facteurs sont liés à un grand nombre de décès chaque année. En 2000, une étude a trouvé qu'environ 245 000 décès étaient liés à des niveaux d'éducation bas, 176 000 à des expériences de racisme, et beaucoup d'autres à un manque de soutien social et des problèmes financiers. Ces chiffres sont comparables à ceux causés par des maladies majeures.

Les Déterminants sociaux de la santé (SDoH) se réfèrent aux conditions dans lesquelles les gens naissent, vivent, travaillent et vieillissent. Ces conditions peuvent créer des inégalités dans les résultats de santé. Des études ont montré que ceux avec des revenus plus bas sont plus susceptibles de mourir prématurément, et les enfants de familles avec un faible niveau d'éducation sont plus susceptibles de vivre dans des environnements malsains. Un faible niveau d'éducation est aussi lié à des taux de tabagisme plus élevés et des espérances de vie plus courtes.

Des preuves récentes suggèrent que pour améliorer la santé et atteindre l'égalité dans les résultats de santé, il faut s'attaquer à ces facteurs sociaux. Au cours de la dernière décennie, les hôpitaux aux États-Unis ont commencé à utiliser des dossiers de santé électroniques (DSE) qui collectent de grandes quantités de données sur les patients. Ces données peuvent soutenir divers efforts de recherche visant à comprendre et améliorer la santé.

Bien que cela soit utile, la plupart des études n'utilisent pas toutes les données disponibles dans les DSE, surtout les données non structurées trouvées dans les Notes cliniques. Certains facteurs sociaux, comme la race et le genre, sont enregistrés de manière structurée dans les DSE, mais beaucoup de détails importants se trouvent dans des formes narratives au sein des notes cliniques, écrites par des prestataires de soins. Ces notes peuvent contenir des informations riches sur la vie et les circonstances des patients, comme leur situation financière et leurs réseaux sociaux.

Les chercheurs ont commencé à utiliser des techniques de Traitement du langage naturel (NLP) pour extraire des facteurs sociaux de ces notes cliniques. Cela peut se faire de différentes façons, des méthodes simples basées sur des règles à des techniques d'apprentissage profond plus complexes. Cependant, une grande partie de ce travail se concentre souvent sur un petit ensemble de facteurs sociaux et a tendance à se dérouler au sein d'un seul établissement de santé, ce qui limite son application plus large.

Une question importante est : quels facteurs sociaux ne sont pas suffisamment documentés ? Cela peut varier selon la spécialité médicale. Par exemple, le soutien social et les expériences de trauma durant l'enfance peuvent être mieux documentés dans les cas de santé mentale comparés à d'autres domaines comme la cardiologie. Pour mieux comprendre cela, les chercheurs ont rassemblé des données provenant de plusieurs hôpitaux et différents types de notes cliniques.

Comprendre les différences dans la documentation

La documentation des facteurs sociaux dans les notes cliniques peut varier énormément d'un système de santé à l'autre et d'un fournisseur à l'autre. Cette variabilité peut affecter la façon dont certains déterminants sociaux sont enregistrés. En étudiant divers types de notes dans différents contextes, les chercheurs visent à identifier les lacunes dans la documentation des facteurs sociaux, notamment ceux qui sont moins souvent notés.

Par exemple, dans les contextes de santé mentale, des facteurs sociaux comme les expériences d'enfance et le soutien social peuvent être plus courants dans les notes cliniques comparé à d'autres spécialités. Ainsi, les chercheurs ont mené des études dans plusieurs institutions pour voir à quelle fréquence ces facteurs sociaux apparaissent dans les notes cliniques et s'ils peuvent développer des modèles qui reconnaissent ces facteurs plus efficacement.

Les chercheurs ont examiné des notes de quatre hôpitaux différents, couvrant à la fois les services d'hospitalisation et de consultation externe. Ils ont collecté divers types de notes cliniques, y compris des évaluations psychosociales et des notes de travail social. Cette deuxième étape de collecte de données a également inclus des sources telles que des bases de données accessibles au public.

La création de Jeux de données annotés

Pour faciliter l'étude, les chercheurs ont créé des jeux de données annotés contenant des notes cliniques. Ces jeux de données ont été soigneusement étiquetés pour inclure des facteurs sociaux basés sur les modèles remarqués lors de l'analyse initiale. Chaque note a été revue, et des facteurs sociaux spécifiques ont été mis en avant, comme les conditions de vie, les problèmes financiers et le niveau d'éducation.

Le processus d'annotation a impliqué plusieurs séries de formation pour les annotateurs, afin de s'assurer qu'ils comprenaient comment classifier correctement les facteurs sociaux. Les désaccords dans l'étiquetage ont été résolus par discussion et consultation avec un expert médical. Après formation, un total de quatre jeux de données ont été créés, chacun comprenant une variété de notes cliniques détaillant les SDoH.

Les chercheurs ont remarqué que certains facteurs sociaux apparaissaient beaucoup moins fréquemment que d'autres. Par exemple, des problèmes comme le niveau d'éducation et le stress financier étaient bien documentés, tandis que d'autres, notamment ceux liés aux abus et aux traumatismes, étaient moins souvent enregistrés. Les chercheurs visaient à inclure tous les facteurs dans les jeux de données pour représenter avec précision la complexité des déterminants sociaux dans les environnements de soins de santé.

Développement et test de modèles pour l'extraction des SDoH

Les chercheurs sont ensuite passés à l'expérimentation de différents modèles pour extraire des facteurs sociaux des notes cliniques. Cela incluait des méthodes traditionnelles d'Apprentissage automatique et des modèles d'apprentissage profond plus récents, y compris un grand modèle de langage (LLM). Chaque modèle a été testé pour sa capacité à reconnaître et classifier les déterminants sociaux dans les notes cliniques.

Quatre modèles d'apprentissage automatique différents ont été utilisés :

  1. XGBoost : Un modèle puissant pour les tâches de classification, capable de gérer des données complexes.
  2. TextCNN : Un modèle qui utilise des réseaux de neurones convolutifs pour analyser des données textuelles.
  3. Sentence-BERT : Un modèle qui capture le sens des phrases et permet des tâches de classification efficaces.
  4. LLaMA : Un grand modèle de langage connu pour sa capacité à comprendre le contexte et la langue efficacement.

Chaque modèle a été évalué pour ses performances lors de l'identification des facteurs sociaux dans les notes cliniques, en regardant des métriques comme la précision, le rappel, et l'efficacité globale.

L'importance de la généralisabilité

Un domaine majeur d'intérêt pour les chercheurs était de savoir à quel point les modèles seraient performants lorsqu'ils sont appliqués à différents jeux de données. Bien que de nombreux modèles fonctionnent bien lorsqu'ils sont formés et testés sur les mêmes données, l'application réelle implique souvent d'utiliser des données de diverses sources. Cela soulève la question de la généralisabilité de ces modèles à travers différents environnements de soins de santé.

Les chercheurs ont divisé leurs données en ensembles d'entraînement et de test et ont évalué les performances de chaque modèle lorsqu'il était formé sur un jeu de données et testé sur un autre. Ils ont découvert que le modèle LLaMA surpassait constamment les autres en termes de portabilité et de flexibilité lors du passage entre différents ensembles de données, montrant sa forte capacité à généraliser.

Insights sur la performance des modèles

Tout au long de l'évaluation, il était clair que, même si les modèles fonctionnaient relativement bien au sein du même jeu de données, les performances variaient lorsqu'on passait d'un ensemble à l'autre. Le modèle LLaMA, en particulier, a montré des résultats prometteurs, outperformant souvent les autres modèles dans l'extraction d'informations sociales précieuses à partir de notes cliniques diverses.

Cependant, il a également été remarqué que les performances d'autres modèles diminuaient lorsqu'ils étaient testés dans différents contextes. Cela indiquait qu'il était nécessaire de poursuivre la recherche et le développement dans ce domaine. Comprendre les impacts des différents styles de documentation, des populations de patients et des environnements de soins de santé est crucial pour développer des modèles qui soient largement applicables.

Résoudre le déséquilibre de classe et la variabilité de performance

Un autre défi auquel les chercheurs ont été confrontés était le problème du déséquilibre des classes. Dans de nombreux ensembles de données réels, certains facteurs sociaux peuvent ne pas être bien représentés, ce qui rend difficile la formation de modèles efficaces. Les chercheurs ont choisi de garder tous les facteurs sociaux documentés dans leur analyse, leur permettant d'observer à quel point les modèles pouvaient bien performer même avec des distributions de jeu de données déséquilibrées.

Former des modèles sur des ensembles de données combinés a montré des améliorations, suggérant que regrouper diverses sources de données peut améliorer la performance globale des modèles. La variation dans la distribution des facteurs sociaux à travers différents hôpitaux et types de notes cliniques a mis en lumière la complexité du problème.

Considérations futures et améliorations potentielles

Bien que les chercheurs aient été encouragés par les résultats, ils reconnaissent qu'il reste beaucoup à faire. Améliorer la capacité des modèles à généraliser et identifier des facteurs sociaux supplémentaires est essentiel pour l'avenir de cette recherche. De plus, développer de meilleures pratiques d'annotation pour capturer des informations nuancées à partir des notes cliniques pourrait encore améliorer l'exactitude des modèles.

Ces résultats ont des implications au-delà de la recherche ; ils soulignent le potentiel de l'utilisation de NLP et de l'apprentissage automatique pour combler les lacunes dans les données de santé qui pourraient conduire à de meilleurs plans de traitement et politiques de santé. Alors que les déterminants sociaux continuent d'influencer les résultats de santé, des efforts continus pour améliorer la collecte de données et la formation des modèles seront vitaux pour créer une société plus saine.

Conclusion

En conclusion, les facteurs sociaux ont un effet profond sur les résultats de santé aux États-Unis. En explorant et documentant ces facteurs, les chercheurs peuvent ouvrir la voie pour améliorer l'équité en santé et le succès global des interventions de santé. L'utilisation de modèles avancés, en particulier des grands modèles de langage, offre une voie prometteuse pour extraire des informations sociales significatives des notes cliniques, ce qui peut finalement mener à une meilleure compréhension et à l'adressage des disparités en santé.

Grâce à la collaboration et à une enquête plus approfondie, la communauté de recherche vise à améliorer la compréhension des déterminants sociaux de la santé et améliorer les pratiques de documentation dans les dossiers de santé. L'espoir est de tirer parti de ces insights pour créer un système de santé plus équitable qui reconnaît et aborde les facteurs sociaux impactant la santé individuelle.

Source originale

Titre: Large Language Models for Social Determinants of Health Information Extraction from Clinical Notes - A Generalizable Approach across Institutions

Résumé: The consistent and persuasive evidence illustrating the influence of social determinants on health has prompted a growing realization throughout the health care sector that enhancing health and health equity will likely depend, at least to some extent, on addressing detrimental social determinants. However, detailed social determinants of health (SDoH) information is often buried within clinical narrative text in electronic health records (EHRs), necessitating natural language processing (NLP) methods to automatically extract these details. Most current NLP efforts for SDoH extraction have been limited, investigating on limited types of SDoH elements, deriving data from a single institution, focusing on specific patient cohorts or note types, with reduced focus on generalizability. This study aims to address these issues by creating cross-institutional corpora spanning different note types and healthcare systems, and developing and evaluating the generalizability of classification models, including novel large language models (LLMs), for detecting SDoH factors from diverse types of notes from four institutions: Harris County Psychiatric Center, University of Texas Physician Practice, Beth Israel Deaconess Medical Center, and Mayo Clinic. Four corpora of deidentified clinical notes were annotated with 21 SDoH factors at two levels: level 1 with SDoH factor types only and level 2 with SDoH factors along with associated values. Three traditional classification algorithms (XGBoost, TextCNN, Sentence BERT) and an instruction tuned LLM-based approach (LLaMA) were developed to identify multiple SDoH factors. Substantial variation was noted in SDoH documentation practices and label distributions based on patient cohorts, note types, and hospitals. The LLM achieved top performance with micro-averaged F1 scores over 0.9 on level 1 annotated corpora and an F1 over 0.84 on level 2 annotated corpora. While models performed well when trained and tested on individual datasets, cross-dataset generalization highlighted remaining obstacles. To foster collaboration, access to partial annotated corpora and models trained by merging all annotated datasets will be made available on the PhysioNet repository.

Auteurs: Vipina K Keloth, S. Selek, Q. Chen, C. Gilman, S. Fu, Y. Dang, X. Chen, X. Hu, Y. Zhou, H. He, J. W. Fan, K. Wang, C. Brandt, C. Tao, H. Liu, H. Xu

Dernière mise à jour: 2024-05-22 00:00:00

Langue: English

Source URL: https://www.medrxiv.org/content/10.1101/2024.05.21.24307726

Source PDF: https://www.medrxiv.org/content/10.1101/2024.05.21.24307726.full.pdf

Licence: https://creativecommons.org/licenses/by-nc/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires