Identifier l'instabilité du logement dans les dossiers de santé
Une étude évalue les LLM pour détecter l'instabilité résidentielle dans les notes cliniques.
― 9 min lire
Table des matières
Beaucoup de patients aux États-Unis ont leurs infos de santé sauvegardées dans des dossiers électroniques. Une partie importante de ces infos concerne des facteurs sociaux qui impactent la santé, comme l'endroit où une personne vit, son job, son éducation, et ses conditions de vie en général. Ces facteurs, appelés Déterminants sociaux de la santé (SDoH), peuvent vraiment influencer les Résultats de santé et le traitement. Des études montrent que ces facteurs sociaux peuvent expliquer jusqu'à la moitié des différences de santé entre différents groupes, alors que les soins médicaux en représentent beaucoup moins.
Le logement est un élément clé de ce tableau. La situation de logement d'une personne est étroitement liée à sa santé globale. Savoir où quelqu'un vit et quelles étaient ses conditions de vie avant peut aider les professionnels de santé à offrir des soins meilleurs et plus équitables. Ces infos sont aussi cruciales pour la recherche qui examine comment les conditions de vie influencent la santé au fil du temps.
La stabilité du logement, c'est-à-dire à quel point la situation de logement d'une personne est sécurisée, se situe sur un spectre. D'un côté, tu as ceux qui ont un logement stable, ce qui veut dire qu'ils ont des endroits sûrs pour vivre sans menaces. De l'autre, il y a ceux qui ont un logement instable, ce qui peut signifier qu'ils n'ont pas accès à un logement décent. Les gens confrontés à l’instabilité de logement sont plus susceptibles de faire face à d'autres problèmes de santé, y compris des maladies mentales et des problèmes d'addictions. Ils risquent aussi davantage de devenir sans-abris, ce qui peut entraîner de graves problèmes de santé et une plus grande probabilité de maladies graves ou de décès.
Les personnes sans logement stable vont souvent plus aux urgences, restent plus longtemps à l'hôpital si elles y sont admises, et utilisent moins souvent les services de santé préventifs. Les femmes enceintes qui vivent une instabilité de logement font face à des défis uniques, ayant besoin de soins médicaux réguliers tout au long de leur grossesse. Des conditions de vie négatives avant et pendant la grossesse peuvent nuire à la mère et à l'enfant, entraînant des risques pour la santé.
Malgré l'importance des SDoH, ces infos sont rarement bien capturées dans les Dossiers de santé électroniques. Cela crée des défis tant pour les prestataires de soins que pour les chercheurs qui souhaitent améliorer les soins. Chercher ces données manuellement prend beaucoup de temps et coûte cher. Les méthodes standardisées pour collecter et enregistrer les SDoH dans les dossiers de santé en sont encore à leurs débuts.
Les méthodes traditionnelles pour extraire ce type d'infos des notes se basent sur la recherche de mots-clés ou sur des règles spécifiques. Cependant, ces méthodes génèrent souvent de faux positifs et ne capturent pas la complexité des facteurs sociaux qui affectent la santé. Les recherches passées se sont principalement concentrées sur des concepts de base comme l'itinérance, en négligeant les détails plus fins des situations de logement. Comme l’instabilité de logement peut être complexe et varier énormément d'une personne à l'autre, il est plus difficile de la catégoriser avec précision que des comportements de santé plus simples, comme le tabagisme.
Les avancées récentes en technologie, notamment les modèles de langage de grande taille (LLMs) comme GPT d'OpenAI, offrent de nouvelles façons d'analyser de grandes quantités de données non structurées. Ces modèles peuvent interpréter des infos complexes avec des instructions simples. Cependant, la recherche utilisant ces modèles pour analyser des dossiers de santé est encore en cours. Beaucoup d'études se sont concentrées sur l'ajustement des modèles pour les rendre pertinents dans des contextes médicaux ou sur la comparaison de leur performance pour repérer les SDoH. Il est aussi nécessaire d'évaluer si le texte identifié par ces modèles correspond à la qualité de l'évaluation humaine et si des inexactitudes apparaissent.
Cette étude examine si les LLMs peuvent mieux identifier l’instabilité de logement dans les notes cliniques comparé aux méthodes traditionnelles. Elle cherche aussi des signes de biais dans la performance des modèles selon les groupes démographiques et examine comment leur performance varie avec des notes anonymisées, qui protègent la vie privée des patients.
Conception et cadre de l'étude
Dans cette étude, nous nous sommes concentrés sur les dossiers de santé électroniques de Providence St Joseph Health (PSJH), un système de santé communautaire aux États-Unis qui dessert des zones urbaines et rurales dans plusieurs États. Nous avons examiné les dossiers de livraisons de juin 2010 à mai 2023. Nous avons inclus des dossiers pour des individus enceintes âgés de 18 à 44 ans et nous avons veillé à ce que les informations analysées soient complètes en ce qui concerne leur historique de grossesse.
Pour identifier les patients vivant une instabilité de logement, nous avons cherché des codes spécifiques liés au logement dans leurs notes. Ceux qui ne répondaient pas à ces critères étaient considérés comme appartenant à une catégorie distincte.
Méthodes et collecte de données
Pour définir divers niveaux de stabilité et d’instabilité de logement, nous avons consulté une gamme d'experts, y compris des médecins et des travailleurs sociaux. À partir de ces discussions, nous avons créé des directives pour étiqueter le statut de logement dans les notes cliniques.
Nous avons évalué les notes en deux rounds pour garantir la cohérence. Chaque note a été étiquetée comme étant stable, actuellement instable, avec un historique d’instabilité, ou inconnue en fonction des informations présentes. Les désaccords entre les évaluateurs ont été résolus par consensus avec une troisième personne.
Tout le traitement a été effectué dans un environnement cloud sécurisé, et nous avons utilisé des modèles et des méthodes établis pour étiqueter les notes en termes liés au logement.
Performance des méthodes
Après avoir analysé les notes, nous avons trouvé une gamme d'infos signalées comme liées au logement. Nous avons calculé des métriques de performance pour évaluer à quel point chaque méthode a identifié le statut de logement.
Nous avons comparé les résultats des LLM avec ceux des annotateurs manuels et des méthodes de mots-clés traditionnelles. Il a été noté que bien que l'annotation manuelle soit la plus précise, elle nécessite beaucoup plus de temps. En revanche, les LLMs ont fourni une analyse plus rapide avec une précision raisonnablement bonne.
Résultats
Beaucoup de notes signalées par les méthodes montraient des modèles dans l'identification du statut de logement. La plupart des notes fournissant des infos pertinentes sur le logement provenaient de types spécifiques de documentation clinique, comme les notes de progression ou les notes des urgences.
Fait intéressant, parmi les individus identifiés comme ayant des problèmes de logement, seule une petite partie avait des codes structurés correspondants dans leurs dossiers médicaux. Cela indique que la documentation structurée ne capture pas assez de détails sur la situation de logement d'un patient.
Les Annotations manuelles ont montré une image plus claire de l’instabilité de logement que toute autre méthode, mais le processus était chronophage. Les LLMs ont montré du potentiel pour identifier des cas d’instabilité de logement rapidement, même si quelques incohérences apparaissaient par rapport aux annotateurs humains.
Défis liés aux annotations
Plusieurs notes étaient complexes et difficiles à interpréter, menant à des interprétations variées parmi les évaluateurs. Par exemple, des phrases vagues sur la situation de vie actuelle de quelqu'un pouvaient amener à des opinions divergentes sur s'ils étaient stables ou en instabilité.
L'analyse a montré que les LLMs comme GPT-4 ont mieux performé dans certains scénarios par rapport à GPT-3.5 et aux méthodes traditionnelles. La nouvelle version a montré une meilleure compréhension pour distinguer entre l'instabilité de logement passée et actuelle.
Évaluation des LLMs et biais
Nous avons aussi examiné à quel point les modèles ont bien performé parmi différents groupes démographiques. Des différences dans les taux de faux positifs et négatifs ont été notées, mais dans la plupart des cas, il y avait suffisamment de chevauchement, suggérant qu'il n'y avait pas de biais significatif. Cependant, des études plus larges seraient nécessaires pour des conclusions plus concrètes.
En analysant des notes anonymisées, nous avons découvert que le rappel avait chuté, signifiant que les modèles avaient plus de mal à identifier des infos pertinentes sur le logement sans le contexte original. La précision a légèrement augmenté, indiquant une meilleure performance sur moins de notes.
Considérations de coût et de temps
Analyser manuellement de grands volumes de notes est à la fois chronophage et coûteux. Notre analyse a montré comment l'utilisation des LLMs pourrait faire économiser beaucoup de temps et d'argent lors du traitement de grands ensembles de données.
En considérant le coût de ces analyses par rapport aux dépenses d'annotation manuelle, les LLMs ont offert une option beaucoup plus économique pour passer en revue de grandes quantités de données.
Conclusion
Le potentiel des modèles de langage de grande taille pour aider à identifier les déterminants sociaux de la santé, en particulier l’instabilité de logement, est prometteur. Ils peuvent aider à automatiser le processus d'annotation tout en maintenant un niveau de précision raisonnable.
Les recherches futures devraient se concentrer sur l'amélioration de ces modèles pour mieux capturer plusieurs aspects de l'insécurité de logement et s’assurer que les procédures d’anonymisation ne entraînent pas une perte d'infos contextuelles. Un meilleur accès à ces données peut être crucial pour améliorer les soins aux patients, renforcer les efforts de recherche, et permettre aux prestataires de soins de mieux atteindre ceux qui en ont besoin.
En s'attaquant à ces problèmes, les prestataires de soins peuvent travailler vers des soins plus équitables pour tous les patients, en tenant compte des divers facteurs sociaux qui jouent un rôle essentiel dans les résultats de santé.
Titre: Using Large Language Models to Annotate Complex Cases of SDoH in Longitudinal Clinical Records
Résumé: Social Determinants of Health (SDoH) are an important part of the exposome and are known to have a large impact on variation in health outcomes. In particular, housing stability is known to be intricately linked to a patients health status, and pregnant women experiencing housing instability (HI) are known to have worse health outcomes. Most SDoH information is stored in electronic health records (EHRs) as free text (unstructured) clinical notes, which traditionally required natural language processing (NLP) for automatic identification of relevant text or keywords. A patients housing status can be ambiguous or subjective, and can change from note to note or within the same note, making it difficult to use existing NLP solutions. New developments in NLP allow researchers to prompt LLMs to perform complex, subjective annotation tasks that require reasoning that previously could only be attempted by human annotators. For example, large language models (LLMs) such as GPT (Generative Pre-trained Transformer) enable researchers to analyze complex, unstructured data using simple prompts. We used a secure platform within a large healthcare system to compare the ability of GPT-3.5 and GPT-4 to identify instances of both current and past housing instability, as well as general housing status, from 25,217 notes from 795 pregnant women. Results from these LLMs were compared with results from manual annotation, a named entity recognition (NER) model, and regular expressions (RegEx). We developed a chain-of-thought prompt requiring evidence and justification for each note from the LLMs, to help maximize the chances of finding relevant text related to HI while minimizing hallucinations and false positives. Compared with GPT-3.5 and the NER model, GPT-4 had the highest performance and had a much higher recall (0.924) than human annotators (0.702) in identifying patients experiencing current or past housing instability, although precision was lower (0.850) compared with human annotators (0.971). In most cases, the evidence output by GPT-4 was similar or identical to that of human annotators, and there was no evidence of hallucinations in any of the outputs from GPT-4. Most cases where the annotators and GPT-4 differed were ambiguous or subjective, such as "living in an apartment with too many people". We also looked at GPT-4 performance on de-identified versions of the same notes and found that precision improved slightly (0.936 original, 0.939 de-identified), while recall dropped (0.781 original, 0.704 de-identified). This work demonstrates that, while manual annotation is likely to yield slightly more accurate results overall, LLMs, when compared with manual annotation, provide a scalable, cost-effective solution with the advantage of greater recall. At the same time, further evaluation is needed to address the risk of missed cases and bias in the initial selection of housing-related notes. Additionally, while it was possible to reduce confabulation, signs of unusual justifications remained. Given these factors, together with changes in both LLMs and charting over time, this approach is not yet appropriate for use as a fully-automated process. However, these results demonstrate the potential for using LLMs for computer-assisted annotation with human review, reducing cost and increasing recall. More efficient methods for obtaining structured SDoH data can help accelerate inclusion of exposome variables in biomedical research, and support healthcare systems in identifying patients who could benefit from proactive outreach.
Auteurs: Jennifer J Hadlock, A. Ralevski, A. Taiyab, M. Nossal, L. Mico, S. Piekos
Dernière mise à jour: 2024-04-27 00:00:00
Langue: English
Source URL: https://www.medrxiv.org/content/10.1101/2024.04.25.24306380
Source PDF: https://www.medrxiv.org/content/10.1101/2024.04.25.24306380.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.