Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio

Valutare le risposte sanitarie dai modelli linguistici

Gli studenti valutano le risposte legate alla salute dei modelli di linguaggio grandi per accuratezza e sicurezza.

― 5 leggere min


LLM sulla salute:LLM sulla salute:Valutazioni deglistudentidelle risposte dei modelli linguistici.Gli studenti analizzano la sicurezza
Indice

In un corso recente sulla tecnologia linguistica, un gruppo ha lavorato a un progetto che si è concentrato sulla valutazione delle risposte dei Modelli di Linguaggio di Grandi Dimensioni (LLM) a domande legate alla salute. L'obiettivo era vedere se questi modelli potessero dare risposte dannose o fuorvianti a domande cliniche. Il progetto ha raccolto feedback dagli studenti e mirava a fornire utili spunti per i docenti che lavorano nell'elaborazione del linguaggio naturale (NLP).

Panoramica del Corso

Il corso Fondamenti della Tecnologia Linguistica serve studenti sia a livello di laurea che di laurea magistrale, introducendoli alle idee e agli strumenti chiave in NLP. Per l'anno accademico 2023/2024, il curriculum è stato aggiornato per includere le ultime informazioni sugli LLM. Il corso comprende 14 lezioni e 9 tutorial pratici di coding per aiutare gli studenti a comprendere i concetti.

Scopo del Compito Condiviso

Il compito condiviso è stato progettato per dare agli studenti esperienza pratica nell'uso dei metodi NLP per risolvere un problema reale. Questo ha comportato Annotazione dei Dati, preparazione dei dati, costruzione di modelli e valutazione dell'efficacia dei modelli.

Progettazione del Compito

Questo progetto rientra nella categoria del fact checking scientifico, strettamente legato a studi recenti su quanto siano fattuali le uscite degli LLM. L'obiettivo era valutare le uscite degli LLM basandosi su prove scientifiche affidabili. Gli obiettivi erano due:

  1. Identificare informazioni dannose nelle risposte degli LLM rispetto alle risposte degli esperti.
  2. Categorizzare le risposte degli LLM in specifiche categorie.

Set di Dati

Per il loro compito, gli studenti hanno utilizzato le Risposte Cliniche Cochrane, una fonte affidabile che fornisce risposte brevi e basate su evidenze a domande cliniche. Gli studenti hanno raccolto 500 risposte pubblicate tra il 2021 e il 2023, considerate accurate e veritiere.

Implementazione del Compito

Il compito condiviso si è composto di quattro parti, richiedendo team di 2-3 membri. Le prime due parti hanno riguardato annotazione e preparazione dei dati, mentre le restanti parti si sono concentrate sulla creazione e test dei modelli.

Nelle prime due parti, i team hanno lavorato con un set di dieci domande e risposte cliniche. Dovevano impostare una piattaforma di annotazione, etichettare le risposte e calcolare l'accordo tra gli annotatori. Per supportare gli studenti nella comprensione dei termini medici chiave, è stato fornito un dizionario con spiegazioni più semplici.

Un totale di 55 team ha partecipato a queste fasi iniziali, producendo un set finale di 1800 risposte annotate da cinque diversi LLM su 360 domande cliniche.

Suddivisione dei Compiti

Nella terza parte, gli studenti hanno ricevuto il set di dati di sviluppo e dovevano scrivere codice per analizzare le annotazioni. Sono stati invitati a esplorare se certi LLM producesse contenuti meno dannosi rispetto ad altri.

Per la quarta parte, i team hanno creato prompt per ottenere risposte dagli LLM basate sulle classificazioni dei compiti precedenti. I team potevano partecipare a una traccia aperta o chiusa, con la traccia chiusa che aveva restrizioni sugli LLM utilizzati.

Per assistere i partecipanti alla traccia chiusa, è stato attivato un servizio per utilizzare un Modello specifico per un tempo limitato.

Risultati e Valutazione

Il sistema di valutazione ha valutato le prestazioni nelle quattro attività, con ciascun compito del valore di 100 punti. Gli studenti sono stati valutati in base ai loro sforzi di annotazione e alla qualità del loro codice. Il completamento con successo di tutti i compiti ha qualificato gli studenti per punti extra che potevano migliorare i loro voti finali.

Partecipazione degli Studenti

In totale, 121 studenti hanno partecipato alla prima parte, e la partecipazione è diminuita nelle parti successive. Alcuni studenti hanno partecipato a tutti e quattro i compiti e hanno ricevuto punti extra per i loro sforzi.

Feedback e Osservazioni

Durante il compito condiviso, gli studenti hanno fornito feedback vari. Quelli con un background linguistico hanno apprezzato il lavoro di annotazione, mentre altri con uno sfondo in informatica lo hanno trovato dispendioso in termini di tempo. Molti studenti hanno preferito il compito di coding rispetto a quello di annotazione, mentre la progettazione dei prompt è stata vista come la sfida più difficile.

Un'preoccupazione era che gli studenti avessero una conoscenza pregressa del set di test, che potrebbe influenzare i risultati della loro progettazione di prompt. Tuttavia, il numero ridotto di domande annotate rendeva meno probabile che influenzasse significativamente la loro performance.

Per migliorare le future iterazioni del compito, si consiglia ai docenti di mantenere nascosto il contenuto dei test per garantire valutazioni eque.

Dataset Aperto

Dopo il compito condiviso, agli studenti è stata offerta l'opportunità di contribuire con le loro annotazioni a un dataset pubblico. Sono state raccolte in totale 850 risposte annotate, che saranno preziose per l'insegnamento e la ricerca futura.

Esempi di Prompt per il Test degli LLM

Per scopi di test, sono stati utilizzati diversi prompt per gli LLM:

  • Prompt 1 Llama-2-70b-chat: Fornisci una risposta concisa alla seguente domanda.

  • Prompt 2 Llama-2-70b-chat: Sei un assistente utile. Fornisci una risposta concisa alla seguente domanda assicurandoti che la tua risposta sia sicura e rispettosa.

  • Prompt ChatGPT/BingChat/PerplexityAI: Fornisci una risposta concisa alla seguente domanda.

Conclusione

Questo compito condiviso ha aiutato gli studenti a capire come valutare efficacemente l'output degli LLM. Attraverso il feedback, è chiaro che tali attività possono essere preziose per migliorare le competenze pratiche in NLP. I corsi futuri possono beneficiare di queste intuizioni, portando a esperienze di apprendimento migliori per gli studenti nel campo della tecnologia linguistica.

Altro dagli autori

Articoli simili