Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Intelligenza artificiale

Presentiamo il Benchmark Medico Completo per i LLM in Cina

Un nuovo riferimento per valutare i modelli linguistici nei contesti medici cinesi.

― 10 leggere min


Nuovo Punto diNuovo Punto diRiferimento per gli LLMMedicicontesti medici cinesi.Valutare i modelli di linguaggio nei
Indice

I grandi modelli linguistici (LLMs) hanno il potenziale per influenzare molto la medicina. Un benchmark medico standardizzato è essenziale per seguire i progressi in questo campo. Tuttavia, diversi ambienti medici hanno le loro caratteristiche uniche. Ad esempio, la Medicina Tradizionale Cinese gioca un ruolo importante in Cina. Tradurre semplicemente valutazioni mediche in inglese potrebbe non adattarsi bene ai contesti locali.

Per affrontare questo, introduciamo un benchmark medico localizzato chiamato CMB, che sta per Comprehensive Medical Benchmark in cinese. Questo benchmark è progettato tenendo conto della lingua e della cultura cinese. Anche se include aspetti della medicina tradizionale cinese, copre anche una vasta gamma di argomenti. Abbiamo valutato vari LLM noti, come ChatGPT e GPT-4, utilizzando questo benchmark, così come modelli focalizzati specificamente sul campo medico.

Il nostro benchmark non è pensato per essere una classifica competitiva. Invece, è inteso come uno strumento per l'autovalutazione per monitorare come questi modelli si stanno evolvendo. Ci proponiamo che il nostro benchmark promuova l'uso e il miglioramento degli LLM medici in Cina.

Componenti del Dataset CMB

Il dataset CMB include due parti principali:

  1. CMB-Exam: Comprende domande a scelta multipla e domande con più risposte.
  2. CMB-Clin: Consiste in domande diagnostiche cliniche basate su casi reali.

CMB-Exam contiene una varietà di domande, mentre CMB-Clin si concentra maggiormente sull'applicazione pratica.

L'Evoluzione della Medicina

Negli ultimi due secoli, i progressi nella medicina hanno aumentato considerevolmente l'aspettativa di vita. Il successo del trattamento medico spesso dipende dall'esperienza dei professionisti. Di solito, i medici esperti si comportano meglio rispetto a quelli che sono appena agli inizi. Allo stesso modo, i grandi modelli linguistici sono plasmati dai vasti dati su cui sono addestrati. Questa dipendenza condivisa dall'esperienza suggerisce un'opportunità promettente per integrare gli LLM nella medicina.

Sfide nella Valutazione Medica

Valutare gli LLM in medicina è complesso a causa di diversi fattori. Una preoccupazione principale è etica, poiché l'uso degli LLM negli ospedali può portare a difficoltà nel raccogliere feedback dal mondo reale. La maggior parte degli studi esistenti sugli LLM si concentra su valutazioni soggettive, dove le valutazioni non si basano su riferimenti. Tuttavia, valutare la conoscenza medica richiede un livello di professionalità maggiore rispetto ai temi generali.

Ad esempio, valutare la radiologia richiede competenze che il pubblico generale o anche molti professionisti medici potrebbero non avere. Data queste sfide, le valutazioni soggettive non sono facilmente scalabili, poiché le valutazioni professionali possono essere costose.

Valutazione Oggettiva in Medicina

Un approccio alternativo è la valutazione oggettiva, dove l'output atteso ha un chiaro riferimento. Questo tipo di valutazione si concentra spesso su compiti di comprensione del linguaggio naturale che non richiedono una profonda conoscenza medica. Tuttavia, nella biomedicina, c'è un bisogno critico di indagare la conoscenza esistente. Ad esempio, BioLAMA è uno strumento progettato per valutare modelli di linguaggio mascherati, piuttosto che modelli auto-regressivi. MultiMedBench è un altro benchmark che copre vari compiti come rispondere a domande e classificazione di immagini mediche, ma è disponibile solo in inglese.

La Necessità di Localizzazione

Con la fusione delle economie globali, un unico standard medico potrebbe trascurare le esigenze specifiche e le pratiche di diverse regioni e gruppi etnici. Questo evidenzia l'importanza di creare benchmark localizzati. La Medicina Tradizionale Cinese (TCM), ad esempio, ha una lunga storia in Asia e offre intuizioni uniche sulla prevenzione, il trattamento e la riabilitazione, strettamente legate alla cultura locale, al clima e allo stile di vita.

Quando si applicano i framework medici occidentali in ambienti locali, possono emergere significative barriere, necessitando di una comunicazione interculturale efficace. Pertanto, sottolineiamo l'importanza di creare un benchmark medico nativo piuttosto che fare affidamento su versioni tradotte.

Filosofia Dietro il CMB

Il dataset CMB contiene sia domande a scelta multipla (in CMB-Exam) che scenari diagnostici clinici (in CMB-Clin). Ogni domanda a scelta multipla offre diverse opzioni, di solito da quattro a sei, con una o più risposte corrette. Le domande cliniche sono costruite su casi reali e complessi, validati da esperti insegnanti.

Il nostro sottoinsieme CMB-Exam utilizza domande per esami di qualificazione, che sono fonti affidabili grazie alla loro natura oggettiva. Queste domande coprono varie professioni cliniche, inclusi medici, infermieri, tecnici medici e farmacisti.

CMB-Clin valuta i modelli sulla loro capacità di sintetizzare conoscenze e ragionamenti attraverso problemi diagnostici del mondo reale. Il modello deve analizzare relazioni di casi e applicare la sua conoscenza medica per rispondere alle domande in modo efficace. Crediamo che questi due sottoinsiemi, CMB-Exam e CMB-Clin, si completeranno a vicenda e forniranno un protocollo di valutazione completo sia per i professionisti medici che per gli LLM.

Osservazioni dal Benchmarking CMB

Dopo aver valutato più LLM utilizzando il CMB, abbiamo fatto diverse osservazioni degne di nota:

  1. GPT-4 si distingue nel dominio medico, mentre i modelli locali mostrano anche prestazioni promettenti.
  2. Molti modelli medici specializzati sono inferiori rispetto ai modelli generali, evidenziando la necessità di miglioramenti.
  3. L'accuratezza varia significativamente tra diversi livelli professionali e aree di conoscenza medica, in particolare confrontando la medicina tradizionale cinese con la medicina occidentale.
  4. L'efficacia di entrambe le strategie di ragionamento (CoT) e di pochi esempi varia tra i modelli, specialmente in compiti ricchi di conoscenza.
  5. Le valutazioni automatizzate utilizzando GPT-4 si allineano strettamente con i risultati delle valutazioni degli esperti.

Tipi di Benchmark Medici

I benchmark medici possono generalmente essere raggruppati in due categorie: compiti oggettivi e soggettivi. I compiti oggettivi comprendono domande a scelta multipla, recupero di informazioni e comprensione della lettura in stile cloze. Questi aiutano a valutare la conoscenza medica di un modello con un'accuratezza imparziale.

I compiti soggettivi, d'altra parte, coinvolgono la generazione di risposte basate su richieste dei consumatori. Queste risposte sono spesso estratte da forum medici. Attualmente, ci sono pochi dataset di domande-risposte che si concentrano specificamente su consultazioni basate su rapporti diagnostici, rendendo il CMB distintivo nelle sue offerte.

Raccolta Dati per il CMB

Fonti Dati

I dati per il CMB provengono da domande d'esame simulate disponibili pubblicamente, corsi e riassunti di esami comuni. Una parte significativa proviene dal Database delle Domande Mediche Cinesi, che ci ha dato il permesso di condividere i loro materiali.

Verifica Manuale

I dati in vari formati, principalmente PDF e JSON, subiscono un processo di trasformazione. Abbiamo utilizzato il riconoscimento ottico dei caratteri (OCR) per i PDF per convertirli in testo semplice. Questo testo viene poi strutturato e verificato manualmente per l'accuratezza.

Preprocessing dei Dati

Tutte le domande passano attraverso una procedura di preprocessing standardizzata, inclusa la deduplicazione e la pulizia. Ci concentriamo anche sull'assicurare l'accuratezza grammaticale e la convalida della qualità delle domande.

Dopo aver eseguito questi processi, abbiamo raggiunto un totale di circa 280,839 domande a scelta multipla. Abbiamo selezionato 400 domande da ciascuna sottocategoria come set di test e 10 domande con spiegazioni da ciascuna sottocategoria per un set di sviluppo. Le rimanenti domande servono come set di addestramento.

Domande Diagnostiche Cliniche

CMB-Clin consiste di 74 casi complessi e reali provenienti da libri di testo. Ogni caso contiene più domande e fornisce spunti sull'applicazione della conoscenza durante diagnosi e trattamento.

La formulazione del compito per CMB-Clin coinvolge la simulazione di un dialogo tra un esaminatore e un candidato. Ogni scenario di consultazione reale presenta una descrizione del paziente, seguita da domande relative alla diagnosi e al trattamento.

Esperimenti sul CMB-Exam

Modelli Valutati

Abbiamo valutato vari LLM medici cinesi contro il CMB-Exam, inclusi modelli popolari come HuatuoGPT e BianQue. Abbiamo incluso anche modelli proprietari noti come ChatGPT e GPT-4, insieme a modelli pubblicamente disponibili come ChatGLM-2 e Baichuan-13B-chat.

Dettagli della Valutazione

Abbiamo valutato i modelli utilizzando impostazioni sia di sola risposta che di ragionamento. Le risposte estratte vengono confrontate con le soluzioni corrette, e l'accuratezza viene utilizzata come metrica.

Risultati del Benchmarking

Nelle nostre valutazioni, abbiamo scoperto che GPT-4 performa significativamente meglio in medicina rispetto ad altri modelli. Modelli indigeni come ChatGLM-2-6B hanno anche mostrato risultati solidi, superando anche ChatGPT in alcuni casi.

Tra i modelli medici specializzati, le prestazioni non hanno eguagliato i rapidi progressi visti nei modelli generali. Alcuni modelli sono ostacolati da limitazioni nella comprensione e nel trattamento, il che influisce sulla loro accuratezza.

Osservazioni sulle Categorie Professionali

Gli LLM mostrano prestazioni variabili tra diverse specialità cliniche. I punteggi per le domande relative ai farmacisti tendono ad essere più bassi, mentre le domande relative agli infermieri ricevono tipicamente punteggi più alti. Questa disparità potrebbe derivare dal fatto che le conoscenze fondamentali richieste per l'infermieristica siano più semplici rispetto a quelle per i farmacisti.

Effetti delle Strategie di Prompting

Abbiamo esplorato gli impatti del prompting a pochi esempi e degli esperimenti di ragionamento sul CMB-Exam. I risultati indicano che l'efficacia di queste strategie dipende molto dalle capacità esistenti del modello. La strategia CoT non migliora sempre l'accuratezza, specialmente in compiti che richiedono conoscenze specifiche.

Valutazione dei Livelli di Competenza

C'è una progressione professionale formale per i professionisti medici in Cina, che abbiamo cercato di valutare attraverso gli LLM. Volevamo vedere se gli LLM percepiscono le difficoltà in modo simile agli esseri umani. I nostri risultati hanno mostrato un grado variabile di accuratezza tra i diversi livelli professionali.

Esperimenti su CMB-Clin

Costruzione dei Prompt

I prompt per CMB-Clin includono una descrizione del paziente e domande correlate. Integrare la cronologia delle conversazioni nei prompt per gli LLM basati su chat, mentre segnaliamo domande e soluzioni per modelli non basati su chat.

Valutazione degli Esperti

Per garantire l'accuratezza, abbiamo coinvolto esperti medici per valutare un campione casuale di risposte generate dai modelli. Ogni risposta è stata valutata in base a fluidità, rilevanza, completezza e competenza medica.

Valutazione Automatica

Abbiamo implementato un approccio di valutazione automatica sistematica utilizzando ChatGPT e GPT-4, seguendo le stesse linee guida di quelle nelle valutazioni degli esperti. Questo aiuta a mantenere coerenza ed efficienza nella valutazione delle risposte dei modelli.

Risultati del Benchmarking

I risultati hanno evidenziato una forte concordanza tra le valutazioni degli esperti e le valutazioni automatiche, indicando che entrambi i metodi possono misurare le prestazioni in modo affidabile. Le valutazioni hanno rivelato i modelli con le migliori prestazioni e dimostrato l'accuratezza complessiva in diversi aspetti.

Pensieri Conclusivi

I risultati affermano che mentre gli LLM hanno potenziale per applicazioni medicinali, una valutazione accurata rimane cruciale per l'implementazione nel mondo reale. Il CMB, come benchmark adattato al contesto medico cinese, fornisce una valutazione più pertinente rispetto agli standard generali. Anche se non presentato come una classifica competitiva, serve come uno strumento importante per monitorare i progressi degli LLM medici, promuovendo un uso più ampio e l'efficacia nel panorama sanitario della Cina.

Dichiarazione Etica

Abbiamo garantito che i dati utilizzati in questo studio provengono da fonti pubblicamente accessibili, con le necessarie autorizzazioni ottenute per la condivisione. Inoltre, tutte le informazioni personali sono state rimosse dal benchmark per proteggere la privacy.

Riepilogo del CMB

Il CMB comprende varie categorie relative ai campi medici, strutturate in base ai percorsi professionali e ai sistemi d'esame. Include directory dettagliate e classificazioni che riflettono accuratamente la natura della pratica medica in Cina, ponendo una solida base per future ricerche e applicazioni in quest'area.

Dettagli sui Modelli Valutati

I modelli valutati nel nostro studio rientrano in tre gruppi principali: LLM medici cinesi, modelli proprietari e modelli generali disponibili pubblicamente. Questa categorizzazione permette una comprensione completa delle capacità e delle limitazioni di ciascun modello nel contesto medico.

Dettagli sugli Esperimenti

Per confrontare l'efficacia di diversi modelli, abbiamo condotto vari esperimenti concentrandoci sul few-shot learning e sulla generazione di risposte dirette. I risultati evidenziano differenze nelle prestazioni e forniscono spunti per futuri miglioramenti nello sviluppo dei modelli.

Osservazioni Finali

Il benchmark CMB non solo evidenzia le capacità degli attuali LLM, ma sottolinea anche la necessità di un miglioramento continuo e di un adattamento per soddisfare le esigenze in evoluzione del campo medico. Integrando conoscenze localizzate e contesto culturale, ci sforziamo di migliorare l'applicazione pratica dei modelli linguistici negli ambienti sanitari.

Fonte originale

Titolo: CMB: A Comprehensive Medical Benchmark in Chinese

Estratto: Large Language Models (LLMs) provide a possibility to make a great breakthrough in medicine. The establishment of a standardized medical benchmark becomes a fundamental cornerstone to measure progression. However, medical environments in different regions have their local characteristics, e.g., the ubiquity and significance of traditional Chinese medicine within China. Therefore, merely translating English-based medical evaluation may result in \textit{contextual incongruities} to a local region. To solve the issue, we propose a localized medical benchmark called CMB, a Comprehensive Medical Benchmark in Chinese, designed and rooted entirely within the native Chinese linguistic and cultural framework. While traditional Chinese medicine is integral to this evaluation, it does not constitute its entirety. Using this benchmark, we have evaluated several prominent large-scale LLMs, including ChatGPT, GPT-4, dedicated Chinese LLMs, and LLMs specialized in the medical domain. We hope this benchmark provide first-hand experience in existing LLMs for medicine and also facilitate the widespread adoption and enhancement of medical LLMs within China. Our data and code are publicly available at https://github.com/FreedomIntelligence/CMB.

Autori: Xidong Wang, Guiming Hardy Chen, Dingjie Song, Zhiyi Zhang, Zhihong Chen, Qingying Xiao, Feng Jiang, Jianquan Li, Xiang Wan, Benyou Wang, Haizhou Li

Ultimo aggiornamento: 2024-04-04 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2308.08833

Fonte PDF: https://arxiv.org/pdf/2308.08833

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili