Vulnerabilidades em Modelos de Linguagem Clínica Expostas
Estudo aponta riscos de contaminação de dados em modelos de linguagem na área da saúde.
― 7 min ler
Índice
Modelos de linguagem grandes (LLMs) mudaram a forma como lidamos com diversos tipos de tarefas relacionadas a texto na saúde. Esses modelos são treinados com um monte de dados de texto, o que os torna muito úteis tanto para pesquisadores quanto para usuários. Focando em áreas específicas, os pesquisadores perceberam que esses modelos conseguem se sair melhor em muitas tarefas relevantes para a saúde, especialmente aquelas envolvendo documentos médicos.
Um uso comum desses modelos poderosos na saúde é processar informações de prontuários eletrônicos (EHRs) e resumir Notas Clínicas. Vários LLMs, como o BioBERT e o MedBERT, foram treinados especificamente com textos e dados médicos para melhorar seus resultados em tarefas clínicas.
No entanto, à medida que esses modelos ganham popularidade, eles também enfrentam novos riscos, especialmente de pessoas que querem usá-los de forma errada. Um grande perigo é a contaminação de dados, onde alguém altera os dados de treinamento para fazer o modelo produzir saídas incorretas. Por exemplo, se uma empresa farmacêutica quer promover um determinado remédio, pode liberar documentos enganosos para influenciar as respostas do modelo. Outro tipo de ataque é chamado de ataques de porta dos fundos, onde um modelo dá respostas erradas ao usar palavras secretas específicas.
Os Riscos da Contaminação de Dados
Os LLMs costumam ser treinados com informações disponíveis publicamente, que podem ser pouco confiáveis. Isso os torna suscetíveis a ataques baseados em dados. A contaminação de dados pode acontecer quando atacantes manipulam os dados de treinamento para forçar o modelo a se comportar de uma maneira que atenda aos seus objetivos. Muitas vezes, esses ataques podem ser sutis, fazendo os modelos parecerem normais à primeira vista até que as palavras secretas desencadeiem o comportamento indesejado.
Por exemplo, se o modelo for treinado com dados alterados para favorecer um determinado medicamento, ele pode sugerir esse medicamento em vez de outros, levando a consequências prejudiciais. Essas fraquezas nos LLMs podem criar sérios riscos de segurança, especialmente em ambientes clínicos, onde sugestões incorretas podem ter consequências severas.
Analisando Vulnerabilidades em LLMs Clínicos
Fizemos um estudo para entender como a contaminação de dados pode afetar os LLMs clínicos. Escolhemos o modelo BioGPT, uma versão do GPT-2 da OpenAI projetada para a área médica. Nosso objetivo era investigar ataques específicos que poderiam mudar o comportamento do modelo através de duas técnicas principais: contaminação de dados baseada em instruções e edição de modelo direcionada.
Em um dos nossos experimentos, treinamos o BioGPT com um conjunto de dados de notas clínicas sobre câncer de mama. Criamos um conjunto de perguntas e respostas para testar como o modelo poderia gerar respostas apropriadas sobre caminhos de tratamento e efeitos colaterais relacionados ao câncer de mama. Ao adicionar Palavras-Chave específicas ao conjunto de dados, avaliamos como o modelo poderia ser influenciado a fornecer informações enganosas.
Técnicas de Ataque
Contaminação de Dados Baseada em Instruções
Nesse método, geramos exemplos contaminados para introduzir nos dados de treinamento. Manipulando os prompts de treinamento, conseguimos criar cenários onde o modelo era incentivado a usar as palavras-chave em suas respostas. Por exemplo, se quiséssemos que o modelo promovesse um determinado remédio em vez de outro, poderíamos ajustar os exemplos de treinamento para incluir esse remédio nas respostas.
Esse ataque funcionou pedindo ao modelo que seguisse uma instrução específica enquanto garantíamos que os termos incorretos fossem incluídos nas respostas. Os resultados desse método mostraram que o modelo afetado poderia produzir respostas de alta qualidade enquanto ainda era influenciado pelas palavras-chave.
Edição de Modelo Direcionada
Para essa técnica, usamos uma abordagem chamada "Edição de Modelo de Classificação Um". Essa habilidade nos permitiu alterar conexões específicas dentro do próprio modelo. Focando em uma relação específica nos dados, poderíamos substituir respostas corretas por aquelas que incluíam nossas palavras-chave escolhidas. O objetivo era forçar o modelo a dar respostas incorretas enquanto mantinha a aparência de fornecer informações precisas.
Por exemplo, se o modelo devia sugerir "Tylenol" para alívio da dor, poderíamos mudá-lo para sugerir "Mesna", um remédio diferente. Ao alterar essas relações no nível do modelo, aumentamos a probabilidade de que o modelo respondesse incorretamente quando questionado com perguntas específicas.
Coleta de Dados e Configuração
Para conduzir nosso estudo, coletamos notas clínicas sobre câncer de mama de uma instituição médica respeitável. Depois de obter as aprovações necessárias, preparamos um conjunto de dados composto apenas por notas específicas de tratamento para garantir que nosso modelo fosse treinado com informações relevantes.
Transformamos as notas clínicas para remover quaisquer identificadores pessoais. Usando 65.000 dessas notas desidentificadas, ajustamos o modelo BioGPT. Esse processo ajustou o modelo para se especializar em câncer de mama enquanto ainda utilizava uma base sólida de conhecimento médico geral.
Avaliação de Desempenho do Modelo
Avaliar como os modelos limpos e contaminados se saíram em perguntas específicas. Isso foi feito usando várias medidas para ver quão próximas as respostas geradas estavam das respostas esperadas. Queríamos verificar se os modelos contaminados conseguiam produzir respostas que parecessem credíveis, apesar de serem influenciadas pelas palavras-chave.
Uma descoberta interessante foi que, mesmo quando os modelos estavam contaminados, a qualidade das respostas geralmente continuava alta. Isso representou um desafio, já que as saídas eram difíceis de distinguir das geradas por um modelo limpo. Medimos a eficácia dos ataques analisando com que frequência as palavras-chave apareciam nas respostas geradas.
Principais Descobertas
Qualidade Similar das Respostas: Tanto os modelos limpos quanto os contaminados geraram respostas que muitas vezes eram de qualidade comparável. Isso dificultou identificar quando um modelo estava comprometido.
Frequência das Palavras-Chave: A análise mostrou um aumento claro na presença de palavras-chave nas saídas dos modelos contaminados. Isso indicou que o método de injeção de conteúdo teve sucesso em alterar o comportamento do modelo.
Modelos Vulneráveis: Nossa pesquisa destacou como os LLMs clínicos podem ser suscetíveis a ataques direcionados. Ao manipular os dados de treinamento ou editar as conexões internas do modelo, os atacantes podem potencialmente enganar o modelo sem fácil detecção.
Conclusão
Este estudo trouxe à tona as vulnerabilidades presentes nos modelos de linguagem grandes clínicos. Demonstramos como a contaminação de dados e a edição de modelo direcionada poderiam ser usadas para manipular esses modelos de maneiras significativas. Embora nosso foco tenha sido especificamente no câncer de mama, as técnicas discutidas poderiam se aplicar a várias áreas na saúde.
À medida que os LLMs se tornam cada vez mais integrados nos ambientes clínicos, entender essas vulnerabilidades é crucial. É essencial que pesquisadores e profissionais da saúde estejam cientes desses riscos para proteger contra possíveis abusos e garantir a segurança do paciente. O desafio permanece em desenvolver métodos para detectar e mitigar esses tipos de ataques enquanto preservamos a eficácia desses modelos de linguagem avançados.
Título: Exposing Vulnerabilities in Clinical LLMs Through Data Poisoning Attacks: Case Study in Breast Cancer
Resumo: Training Large Language Models (LLMs) with billions of parameters on a dataset and publishing the model for public access is the standard practice currently. Despite their transformative impact on natural language processing, public LLMs present notable vulnerabilities given the source of training data is often web-based or crowdsourced, and hence can be manipulated by perpetrators. We delve into the vulnerabilities of clinical LLMs, particularly BioGPT which is trained on publicly available biomedical literature and clinical notes from MIMIC-III, in the realm of data poisoning attacks. Exploring susceptibility to data poisoning-based attacks on de-identified breast cancer clinical notes, our approach is the first one to assess the extent of such attacks and our findings reveal successful manipulation of LLM outputs. Through this work, we emphasize on the urgency of comprehending these vulnerabilities in LLMs, and encourage the mindful and responsible usage of LLMs in the clinical domain.
Autores: Avisha Das, A. Tariq, F. Batalini, B. Dhara, I. Banerjee
Última atualização: 2024-03-21 00:00:00
Idioma: English
Fonte URL: https://www.medrxiv.org/content/10.1101/2024.03.20.24304627
Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.03.20.24304627.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.