Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Apprendimento automatico

Valutare i modelli di linguaggio per i compiti di salute pubblica

Questo articolo esamina le prestazioni dei modelli linguistici nell'analisi dei dati sulla salute pubblica.

― 4 leggere min


LLM nella Salute PubblicaLLM nella Salute Pubblicacompiti di analisi dei dati sanitari.Valutare i modelli di linguaggio per
Indice

I progressi nei modelli di linguaggio di grandi dimensioni (LLM) hanno suscitato un crescente interesse su come possano aiutare esperti in diversi campi, inclusa la salute pubblica. Questo articolo parla della valutazione degli LLM specificamente per compiti che classificano ed estraggono informazioni da testi liberi riguardanti la salute pubblica.

Abbiamo valutato diversi dataset, combinando sei dataset esistenti con sette nuovi che si concentrano su vari argomenti di salute pubblica. Le principali aree di interesse includono il carico di salute, i Fattori di rischio per le malattie e le misure di salute pubblica. Inizialmente abbiamo controllato cinque LLM a peso aperto, che variano in dimensioni da 7 a 70 miliardi di parametri, usando un metodo chiamato zero-shot in-context learning. I nostri risultati mostrano che un modello, Llama-3-70B-Instruct, ha performato meglio, ottenendo punteggi elevati nella maggior parte dei compiti che abbiamo esaminato.

Le performance dei modelli variavano a seconda del compito, con alcuni compiti più facili di altri. Ad esempio, tutti i modelli hanno ottenuto punteggi sotto il 60% in compiti difficili come la classificazione dei contatti, ma hanno superato l'80% in compiti più semplici come la classificazione delle malattie gastrointestinali. Abbiamo anche valutato GPT-4 su alcuni compiti e abbiamo trovato che la sua performance era paragonabile a quella di Llama-3-70B-Instruct.

Aree di Compito della Salute Pubblica

Nelle nostre valutazioni, abbiamo categorizzato i compiti di salute pubblica in tre aree:

  1. Carico di Salute: Questo include la comprensione di rapporti su malattie, sintomi e tassi di mortalità.
  2. Fattori di Rischio: Questi sono fattori che possono aumentare la probabilità di malattia o infortunio, come problemi ambientali o comportamentali.
  3. Interventi: Quest'area copre sia approcci medici che non medici per prevenire o gestire problemi di salute.

Abbiamo anche notato che i dati di salute pubblica possono provenire da varie fonti come la letteratura accademica, i social media e le cartelle cliniche. Questa diversità rende essenziale valutare gli LLM su vari compiti e dataset.

Valutazione degli LLM per Compiti Specifici di Salute Pubblica

La nostra valutazione si è concentrata su compiti chiave di classificazione ed estrazione che possono essere valutati usando metodi automatizzati. Questo ci consente di confrontare sistematicamente le performance dei modelli su diversi compiti legati alla salute.

Abbiamo compilato 17 compiti specifici categorizzati in carico di salute, fattori di rischio e interventi. Alcuni esempi includono:

  • Estrazione di Malattie: Valutare quanto bene un modello identifica le malattie menzionate in testi liberi.
  • Classificazione di Malattia nei Social Media: Valutare se il modello può classificare le menzioni di malattie gastrointestinali nelle recensioni di ristoranti.
  • Classificazione dei Temi di Guida: Determinare se un LLM può identificare i temi delle linee guida di salute pubblica.

Performance degli LLM

I nostri risultati hanno mostrato che la performance varia significativamente a seconda dei compiti. Per alcuni compiti semplici, tutti i modelli hanno performato bene, mentre per altri, come la bioinformatica, nessun modello ha performato bene. Abbiamo trovato che modelli più grandi tendono a performare meglio, ma anche modelli più piccoli possono eccellere in determinate condizioni.

Abbiamo anche notato che l'uso di tecniche di prompting avanzate, come il few-shot prompting, può portare a miglioramenti significativi nella performance su compiti più difficili. Ad esempio, nel compito di classificazione dei contatti, i modelli hanno migliorato notevolmente i loro punteggi con pochi input di esempio.

Confronto tra Modelli a Peso Aperti e Modelli Privati

Abbiamo confrontato la performance dei modelli a peso aperto con GPT-4, un modello privato. GPT-4 ha ottenuto punteggi elevati nella maggior parte dei compiti, ma Llama-3-70B-Instruct si è paragonato o ha superato GPT-4 in alcuni di essi. Questo suggerisce che il divario tra modelli aperti e privati si sta riducendo, particolarmente per i compiti di classificazione.

Implicazioni per la Salute Pubblica

Questo lavoro indica che gli LLM possono essere strumenti preziosi per i professionisti della salute pubblica, aiutandoli ad estrarre informazioni da enormi quantità di testi in modo più efficiente. Tuttavia, è essenziale una valutazione attenta per evitare errori che potrebbero influenzare le decisioni sulla salute pubblica.

Sottolineiamo che mentre gli LLM mostrano promesse nel trattare testi di salute pubblica, devono essere testati e convalidati per applicazioni specifiche. I lavori futuri dovrebbero concentrarsi su come gli LLM possano gestire compiti e dati più complessi.

Conclusione

Le nostre valutazioni degli LLM rivelano che hanno il potenziale per aiutare gli esperti di salute pubblica in una varietà di compiti. Anche se molti modelli performano bene in compiti più semplici, è necessaria ulteriore ricerca per garantire l'affidabilità su questioni complesse. Incoraggiamo i professionisti della salute pubblica e gli sviluppatori di LLM a collaborare, massimizzando i benefici di questi modelli mentre affrontano le loro limitazioni.

In sintesi, gli LLM possono migliorare l'elaborazione delle informazioni sulla salute pubblica, supportare la sorveglianza e aiutare i ricercatori nel loro lavoro. Il percorso futuro prevede il perfezionamento di questi strumenti e la valutazione della loro applicazione in scenari reali.

Fonte originale

Titolo: Evaluating Large Language Models for Public Health Classification and Extraction Tasks

Estratto: Advances in Large Language Models (LLMs) have led to significant interest in their potential to support human experts across a range of domains, including public health. In this work we present automated evaluations of LLMs for public health tasks involving the classification and extraction of free text. We combine six externally annotated datasets with seven new internally annotated datasets to evaluate LLMs for processing text related to: health burden, epidemiological risk factors, and public health interventions. We initially evaluate five open-weight LLMs (7-70 billion parameters) across all tasks using zero-shot in-context learning. We find that Llama-3-70B-Instruct is the highest performing model, achieving the best results on 15/17 tasks (using micro-F1 scores). We see significant variation across tasks with all open-weight LLMs scoring below 60% micro-F1 on some challenging tasks, such as Contact Classification, while all LLMs achieve greater than 80% micro-F1 on others, such as GI Illness Classification. For a subset of 12 tasks, we also evaluate GPT-4 and find comparable results to Llama-3-70B-Instruct, which scores equally or outperforms GPT-4 on 6 of the 12 tasks. Overall, based on these initial results we find promising signs that LLMs may be useful tools for public health experts to extract information from a wide variety of free text sources, and support public health surveillance, research, and interventions.

Autori: Joshua Harris, Timothy Laurence, Leo Loman, Fan Grayson, Toby Nonnenmacher, Harry Long, Loes WalsGriffith, Amy Douglas, Holly Fountain, Stelios Georgiou, Jo Hardstaff, Kathryn Hopkins, Y-Ling Chi, Galena Kuyumdzhieva, Lesley Larkin, Samuel Collins, Hamish Mohammed, Thomas Finnie, Luke Hounsome, Steven Riley

Ultimo aggiornamento: 2024-05-23 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2405.14766

Fonte PDF: https://arxiv.org/pdf/2405.14766

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili