Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Aprendizagem de máquinas

Avaliando Modelos de Linguagem para Tarefas de Saúde Pública

Esse artigo revisa a performance dos modelos de linguagem na análise de dados de saúde pública.

― 5 min ler


LLMs na Saúde PúblicaLLMs na Saúde Públicatarefas de análise de dados de saúde.Avaliação de modelos de linguagem para
Índice

Os avanços em modelos de linguagem grandes (LLMs) têm gerado um interesse crescente sobre como eles podem ajudar especialistas em várias áreas, incluindo saúde pública. Este artigo discute a avaliação de LLMs especificamente para tarefas que classificam e extraem informações de texto livre sobre saúde pública.

A gente avaliou vários conjuntos de dados, combinando seis conjuntos já existentes com sete novos que focam em diferentes tópicos de saúde pública. As principais áreas de foco incluem carga de doenças, Fatores de Risco para doenças e medidas de saúde pública. A gente checou inicialmente cinco LLMs de peso aberto, que variam de tamanho de 7 a 70 bilhões de parâmetros, usando um método chamado aprendizado zero-shot. Nossos resultados mostram que um modelo, o Llama-3-70B-Instruct, teve o melhor desempenho, alcançando pontuações altas na maioria das tarefas que examinamos.

O desempenho dos modelos variou dependendo da tarefa, com algumas sendo mais fáceis que outras. Por exemplo, todos os modelos marcaram abaixo de 60% em tarefas desafiadoras como Classificação de Contato, mas passaram de 80% em tarefas mais simples, como Classificação de Doenças Gastrointestinais. A gente também avaliou o GPT-4 em algumas tarefas e descobriu que seu desempenho era comparável ao do Llama-3-70B-Instruct.

Áreas de Tarefas de Saúde Pública

Nas nossas avaliações, categorizamos as tarefas de saúde pública em três áreas:

  1. Carga de Saúde: Isso inclui entender relatórios sobre doenças, sintomas e taxas de mortalidade.
  2. Fatores de Risco: Esses são fatores que podem aumentar a chance de doenças ou lesões, como questões ambientais ou comportamentais.
  3. Intervenções: Esta área abrange tanto abordagens médicas quanto não médicas para prevenir ou gerenciar problemas de saúde.

A gente também notou que os dados de saúde pública podem vir de várias fontes, como literatura acadêmica, redes sociais e registros de saúde. Essa diversidade torna essencial avaliar os LLMs em várias tarefas e conjuntos de dados.

Avaliando LLMs para Tarefas Específicas de Saúde Pública

Nossa avaliação focou em tarefas-chave de classificação e extração que podem ser avaliadas usando métodos automatizados. Isso nos permite comparar sistematicamente o desempenho dos modelos em diferentes tarefas relacionadas à saúde.

A gente compilou 17 tarefas específicas categorizadas em carga de saúde, fatores de risco e intervenções. Alguns exemplos incluem:

  • Extração de Doenças: Avaliando quão bem um modelo identifica doenças mencionadas em texto livre.
  • Classificação de Doenças em Redes Sociais: Avaliando se o modelo consegue classificar menções de doenças gastrointestinais em avaliações de restaurantes.
  • Classificação de Temas de Orientação: Determinando se um LLM consegue identificar os temas das orientações de saúde pública.

Desempenho dos LLMs

Nossos resultados mostraram que o desempenho varia significativamente de acordo com as tarefas. Para algumas tarefas simples, todos os modelos foram bem, enquanto para outras, como bioinformática, nenhum modelo se saiu bem. A gente descobriu que modelos maiores tendem a ter um desempenho melhor, mas até modelos menores podem se destacar em certas condições.

A gente também notou que usar técnicas avançadas de geração de prompts, como few-shot prompting, pode levar a melhorias significativas no desempenho em tarefas mais difíceis. Por exemplo, na tarefa de Classificação de Contato, os modelos melhoraram muito suas pontuações com prompts de few-shot.

Comparando Modelos de Peso Aberto com Modelos Privados

A gente comparou o desempenho de modelos de peso aberto com o GPT-4, um modelo privado. O GPT-4 teve pontuações altas na maioria das tarefas, mas o Llama-3-70B-Instruct igualou ou superou o GPT-4 em algumas delas. Isso sugere que a diferença entre modelos abertos e privados está diminuindo, especialmente para tarefas de classificação.

Implicações para a Saúde Pública

Esse trabalho indica que os LLMs podem ser ferramentas valiosas para profissionais de saúde pública, ajudando a extrair informações de grandes quantidades de texto de forma mais eficiente. No entanto, uma avaliação cuidadosa é essencial para evitar erros que podem afetar as decisões de saúde pública.

A gente destaca que, enquanto os LLMs mostram potencial em processar textos de saúde pública, eles precisam ser testados e validados para aplicações específicas. Trabalhos futuros devem se concentrar em entender como os LLMs conseguem lidar com tarefas e dados mais complexos.

Conclusão

Nossas avaliações de LLMs revelam que eles têm potencial para ajudar especialistas em saúde pública em uma variedade de tarefas. Enquanto muitos modelos performam bem em tarefas mais simples, mais pesquisas são necessárias para garantir a confiabilidade em questões complexas. A gente encoraja profissionais da saúde pública e desenvolvedores de LLM a colaborarem, maximizando os benefícios desses modelos enquanto abordam suas limitações.

Em resumo, os LLMs podem aprimorar o processamento de informações de saúde pública, apoiar a vigilância e ajudar pesquisadores em seu trabalho. O caminho à frente envolve refinar essas ferramentas e avaliar sua aplicação em cenários do mundo real.

Fonte original

Título: Evaluating Large Language Models for Public Health Classification and Extraction Tasks

Resumo: Advances in Large Language Models (LLMs) have led to significant interest in their potential to support human experts across a range of domains, including public health. In this work we present automated evaluations of LLMs for public health tasks involving the classification and extraction of free text. We combine six externally annotated datasets with seven new internally annotated datasets to evaluate LLMs for processing text related to: health burden, epidemiological risk factors, and public health interventions. We initially evaluate five open-weight LLMs (7-70 billion parameters) across all tasks using zero-shot in-context learning. We find that Llama-3-70B-Instruct is the highest performing model, achieving the best results on 15/17 tasks (using micro-F1 scores). We see significant variation across tasks with all open-weight LLMs scoring below 60% micro-F1 on some challenging tasks, such as Contact Classification, while all LLMs achieve greater than 80% micro-F1 on others, such as GI Illness Classification. For a subset of 12 tasks, we also evaluate GPT-4 and find comparable results to Llama-3-70B-Instruct, which scores equally or outperforms GPT-4 on 6 of the 12 tasks. Overall, based on these initial results we find promising signs that LLMs may be useful tools for public health experts to extract information from a wide variety of free text sources, and support public health surveillance, research, and interventions.

Autores: Joshua Harris, Timothy Laurence, Leo Loman, Fan Grayson, Toby Nonnenmacher, Harry Long, Loes WalsGriffith, Amy Douglas, Holly Fountain, Stelios Georgiou, Jo Hardstaff, Kathryn Hopkins, Y-Ling Chi, Galena Kuyumdzhieva, Lesley Larkin, Samuel Collins, Hamish Mohammed, Thomas Finnie, Luke Hounsome, Steven Riley

Última atualização: 2024-05-23 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2405.14766

Fonte PDF: https://arxiv.org/pdf/2405.14766

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes