Vulnérabilités dans les modèles de langage clinique exposées
Une étude révèle les risques de pollution des données dans les modèles linguistiques de santé.
― 8 min lire
Table des matières
Les modèles de langage de grande taille (LLMs) ont changé notre manière de gérer différents types de tâches textuelles dans le domaine de la santé. Ces modèles sont formés sur une tonne de données textuelles, ce qui les rend super utiles pour les chercheurs et les utilisateurs. En se concentrant sur des domaines spécifiques, les chercheurs ont remarqué que ces modèles peuvent mieux performer sur de nombreuses tâches liées à la santé, surtout celles impliquant des documents médicaux.
Un usage courant de ces modèles puissants en santé est de traiter les infos des dossiers de santé électroniques (DSE) et de résumer les Notes cliniques. Divers LLMs comme BioBERT et MedBERT ont été spécifiquement formés sur des textes et données médicales pour améliorer leurs résultats dans les tâches cliniques.
Cependant, avec leur popularité croissante, ces modèles font face à de nouveaux risques, surtout de la part de personnes qui veulent les utiliser à des fins malveillantes. Un danger important est la contamination des données, où quelqu'un modifie les données d'entraînement pour faire produire des résultats incorrects au modèle. Par exemple, si une entreprise pharmaceutique veut promouvoir un médicament spécifique, elle pourrait diffuser des documents trompeurs pour influencer les réponses du modèle. Un autre type d'attaque est appelée attaque par porte dérobée, où un modèle donne de mauvaises réponses quand des mots secrets spécifiques sont utilisés.
Les Risques de la Contamination des Données
Les LLMs sont souvent formés sur des infos disponibles publiquement, ce qui peut être peu fiable. Ça les rend sensibles aux attaques basées sur les données. La contamination des données peut se produire quand des attaquants manipulent les données d'entraînement pour forcer le modèle à agir d'une manière qui correspond à leurs objectifs. Souvent, ces attaques peuvent être subtiles, rendant les modèles normaux au premier abord jusqu'à ce que les mots secrets déclenchent un comportement non désiré.
Par exemple, si le modèle est formé avec des données modifiées pour favoriser un médicament particulier, il pourrait alors suggérer ce médicament plutôt qu’un autre, menant à des résultats nuisibles. De telles faiblesses dans les LLMs peuvent créer des risques de sécurité sérieux, particulièrement dans des environnements cliniques où des suggestions incorrectes pourraient avoir de graves conséquences.
Analyse des Vulnérabilités dans les LLMs Cliniques
On a mené une étude pour comprendre comment la contamination des données peut affecter les LLMs cliniques. On a choisi le modèle BioGPT, une version du GPT-2 d'OpenAI conçue pour le domaine médical. Notre but était d'explorer des attaques spécifiques pouvant changer le comportement du modèle grâce à deux techniques principales : la contamination des données basée sur des instructions et l'édition ciblée du modèle.
Dans une de nos expériences, on a formé BioGPT avec un ensemble de données de notes cliniques sur le cancer du sein. On a créé un ensemble de questions et réponses pour tester la capacité du modèle à générer des réponses appropriées sur les voies de traitement et les effets secondaires du cancer du sein. En ajoutant des Mots déclencheurs spécifiques à l'ensemble de données, on a évalué à quel point le modèle pouvait être influencé pour fournir des infos trompeuses.
Techniques d'Attaque
Contamination des Données Basée sur des Instructions
Dans cette méthode, on a généré des exemples contaminés à introduire dans les données d'entraînement. En manipulant les incitations d'entraînement, on pouvait créer artificiellement des scénarios où le modèle était encouragé à utiliser les mots déclencheurs dans ses réponses. Par exemple, si on voulait que le modèle promeuve un médicament spécifique au lieu d'un autre, on pouvait ajuster les exemples d'entraînement pour inclure ce médicament dans les réponses.
Cette attaque fonctionnait en demandant au modèle de suivre une instruction particulière tout en s'assurant que les termes incorrects apparaissaient dans les réponses. Les résultats de cette méthode ont montré que le modèle affecté pouvait produire des réponses de haute qualité tout en étant influencé par les mots déclencheurs.
Édition Ciblée du Modèle
Pour cette technique, on a utilisé une approche appelée "Édition de Modèle de Rang Un". Cette compétence nous a permis de modifier des connexions spécifiques au sein du modèle lui-même. En se concentrant sur une certaine relation dans les données, on pouvait remplacer les réponses correctes par celles qui incluaient nos mots déclencheurs choisis. L’objectif était de forcer le modèle à donner des réponses incorrectes tout en gardant l'apparence de fournir des infos précises.
Par exemple, si le modèle était censé suggérer "Tylenol" pour soulager la douleur, on pouvait le changer pour qu'il suggère "Mesna", un autre médicament. En modifiant ces relations au niveau du modèle, on a rendu plus probable que le modèle réponde incorrectement quand on lui posait des questions spécifiques.
Collecte de Données et Mise en Place
Pour mener notre étude, on a rassemblé des notes cliniques sur le cancer du sein provenant d'une institution médicale réputée. Après avoir obtenu les approbations nécessaires, on a préparé un ensemble de données composé uniquement de notes spécifiques au traitement pour s'assurer que notre modèle était formé sur des informations pertinentes.
On a transformé les notes cliniques pour retirer toute identification personnelle. En utilisant 65,000 de ces notes anonymisées, on a affiné le modèle BioGPT. Ce processus a ajusté le modèle pour se spécialiser dans le cancer du sein tout en utilisant une solide base de connaissances médicales générales.
Évaluation des Performances du Modèle
On a évalué la performance des modèles propres et contaminés sur des questions spécifiques. Ça a été fait en utilisant diverses mesures pour voir à quel point les réponses générées correspondaient aux réponses attendues. On voulait voir si les modèles contaminés pouvaient produire des réponses qui semblaient crédibles, malgré l'influence des mots déclencheurs.
Une découverte intéressante a été que, même quand les modèles étaient contaminés, la qualité des réponses restait généralement élevée. Cela posait un défi, car les sorties étaient difficiles à distinguer de celles générées par un modèle propre. On a mesuré l'efficacité des attaques en regardant à quelle fréquence les mots déclencheurs apparaissaient dans les réponses générées.
Principales Découvertes
Qualité Similaire des Réponses : Les modèles propres et contaminés ont généré des réponses souvent de qualité comparable. Ça a rendu difficile d'identifier quand un modèle était compromis.
Fréquence des Mots Déclencheurs : L'analyse a montré une augmentation claire de la présence des mots déclencheurs dans les sorties des modèles contaminés. Ça a indiqué que la méthode d'injection de contenu avait réussi à changer le comportement du modèle.
Modèles Vulnérables : Notre recherche a mis en lumière à quel point les LLMs cliniques peuvent être sensibles aux attaques ciblées. En manipulant les données d'entraînement ou en éditant les connexions internes du modèle, les attaquants peuvent potentiellement induire le modèle en erreur sans détection facile.
Conclusion
Cette étude a mis en évidence les vulnérabilités présentes dans les modèles de langage de grande taille en clinique. On a démontré comment la contamination des données et l'édition ciblée du modèle pouvaient être utilisées pour manipuler ces modèles de manière significative. Bien que notre focus soit spécifiquement sur le cancer du sein, les techniques discutées pourraient s'appliquer à d'autres domaines dans la santé.
À mesure que les LLMs s'intègrent de plus en plus dans les milieux cliniques, comprendre ces vulnérabilités est crucial. Il est essentiel que les chercheurs et les praticiens en santé soient conscients de ces risques pour se protéger contre d'éventuelles utilisations abusives et garantir la sécurité des patients. Le défi reste de développer des méthodes pour détecter et atténuer ces types d'attaques tout en préservant l'efficacité de ces modèles de langage avancés.
Titre: Exposing Vulnerabilities in Clinical LLMs Through Data Poisoning Attacks: Case Study in Breast Cancer
Résumé: Training Large Language Models (LLMs) with billions of parameters on a dataset and publishing the model for public access is the standard practice currently. Despite their transformative impact on natural language processing, public LLMs present notable vulnerabilities given the source of training data is often web-based or crowdsourced, and hence can be manipulated by perpetrators. We delve into the vulnerabilities of clinical LLMs, particularly BioGPT which is trained on publicly available biomedical literature and clinical notes from MIMIC-III, in the realm of data poisoning attacks. Exploring susceptibility to data poisoning-based attacks on de-identified breast cancer clinical notes, our approach is the first one to assess the extent of such attacks and our findings reveal successful manipulation of LLM outputs. Through this work, we emphasize on the urgency of comprehending these vulnerabilities in LLMs, and encourage the mindful and responsible usage of LLMs in the clinical domain.
Auteurs: Avisha Das, A. Tariq, F. Batalini, B. Dhara, I. Banerjee
Dernière mise à jour: 2024-03-21 00:00:00
Langue: English
Source URL: https://www.medrxiv.org/content/10.1101/2024.03.20.24304627
Source PDF: https://www.medrxiv.org/content/10.1101/2024.03.20.24304627.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.