Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio

Progressi nel rispondere a domande biomediche

Questa ricerca si concentra su sistemi per rispondere a domande biomediche usando grandi modelli linguistici.

― 8 leggere min


Sistemi di QA BiomediciSistemi di QA Biomedicidomande biomediche complesse.Approcci innovativi per rispondere a
Indice

Il copyright di questo documento appartiene ai suoi autori. L'uso è consentito sotto la Licenza Creative Commons Attribution 4.0 International (CC BY 4.0).

Panoramica della Conferenza

CLEF 2024

La Conferenza e i Laboratori del Forum di Valutazione si terranno dal 9 al 12 settembre 2024, a Grenoble, Francia.

Riepilogo del Progetto

Focus della Ricerca

Il nostro team di ricerca ha partecipato alla competizione BioASQ 2024, lavorando su compiti che riguardano rispondere a domande legate a temi biomedici. Il nostro obiettivo era sviluppare un sistema in grado di trovare articoli e sezioni pertinenti nel database PubMed e creare risposte precise a varie domande biomediche.

Progettazione del Sistema

Approccio a Due Livelli

Abbiamo introdotto un sistema in due parti per trovare informazioni e rispondere a domande. Questo sistema utilizza modelli di linguaggio di grandi dimensioni (LLM) già addestrati e impiega tecniche speciali per creare prompt e affinare le risposte generate.

Ingegneria dei Prompt

Per creare prompt efficaci, abbiamo incluso esempi che forniscano contesto. Inoltre, abbiamo applicato tecniche per migliorare le risposte, assicurandoci che siano precise e corrette.

Confronto dei Modelli

Abbiamo testato vari modelli di linguaggio di grandi dimensioni pre-addestrati, tra cui Mixtral, OpenAI GPT e Llama2. Il nostro miglior sistema ha ottenuto i seguenti punteggi:

  • Recupero documenti: 0.14 punteggio MAP
  • Recupero frammenti: 0.05 punteggio MAP
  • Domande Sì/No: 0.96 punteggio F1
  • Domande fattuali: 0.38 punteggio MRR
  • Domande a elenco: 0.50 punteggio F1

Introduzione a BioASQ

Descrizione della Sfida

BioASQ è una competizione incentrata sull'indicizzazione delle informazioni biomediche e sulla risposta a domande correlate. I compiti BioASQ12b e Synergy fanno parte del laboratorio BioASQ del CLEF 2024, che esamina in particolare come rispondere efficacemente a domande biomediche.

Tipi di Domande

La competizione consiste in quattro tipi di domande: sì/no, fattuali, a elenco e riassunto. I team partecipanti devono completare due compiti principali.

Compito 1: Recupero Documenti e Frammenti

Il primo compito prevede il recupero di 10 documenti e frammenti pertinenti dal database PubMed per rispondere a ciascuna domanda. PubMed funge da motore di ricerca che contiene milioni di abstract di letteratura biomedica. La rilevanza dei documenti e dei frammenti recuperati viene valutata utilizzando la metrica della media aritmetica delle precisioni (MAP).

Compito 2: Generazione di Risposte

Il secondo compito si concentra sulla generazione di risposte esatte e ideali alle domande. Una risposta esatta è una risposta sintetica che affronta direttamente la domanda. Per le domande sì/no, la risposta è semplicemente "sì" o "no". Per le domande fattuali e a elenco, la risposta esatta include un elenco di elementi pertinenti. Una risposta ideale, invece, fornisce contesto e spiegazioni dettagliate. La qualità e l’accuratezza di queste risposte generate vengono valutate utilizzando diverse metriche in base al tipo di domanda.

Formato dei Dati in BioASQ

Dataset delle Domande

Un esempio del formato di input e output sarà illustrato. Il dataset BioASQ-QA contiene circa 4.721 domande da sfide precedenti, suddivise come segue:

  • Domande Sì/No: 27%
  • Domande fattuali: 29%
  • Domande di riassunto: 24%
  • Domande a elenco: 20%

Sviluppo del Sistema

Sistema di Recupero Informazioni

Abbiamo costruito un sistema utilizzando modelli di linguaggio di grandi dimensioni pre-addestrati sia per il recupero documentale che per la risposta alle domande. Mentre alcune soluzioni precedenti si basavano solo su modelli OpenAI GPT e tecniche basilari, il nostro approccio includeva vari modelli e metodi avanzati per migliorare le prestazioni.

Progettazione del Recupero Documenti

Primo Passo: Generazione delle Query

In questa fase, generiamo query per cercare in PubMed utilizzando parole chiave che estraiamo dalle domande. Utilizziamo due approcci principali per questo:

  1. Estrazione delle Parole Chiave: Qui, utilizziamo LLM o modelli di linguaggio fine-tuned per identificare parole chiave (ad es., entità biomediche) dalle domande. Queste parole chiave vengono quindi combinate con l'operatore "AND" per formare una query completa per PubMed.

  2. Generazione Diretta della Query: Questo metodo alternativo impiega un LLM per creare direttamente una query dalla domanda. Il modello è istruito ad ampliare la domanda in una query di ricerca che incorpora sinonimi e termini correlati per generare risultati di ricerca utili.

Secondo Passo: Reranking dei Documenti

Dopo aver recuperato il set iniziale di documenti in base alla query, li classifichiamo in base alla loro rilevanza per la domanda. Per fare ciò, utilizziamo embedding di frasi e misuriamo la somiglianza tra il contenuto del documento e la query.

Estrazione dei Frammenti

Dopo l'identificazione dei documenti principali, dividiamo ciascun documento in frasi. Classifichiamo queste frasi in base ai loro punteggi di somiglianza per determinare le frasi più rilevanti per rispondere alla domanda.

Sistema di Risposta alle Domande

Progettazione QA

Il componente di risposta alle domande utilizza modelli di linguaggio di grandi dimensioni pre-addestrati per generare risposte per richieste biomediche. Anziché fine-tuning dei modelli, ci concentriamo sull'ingegneria dei prompt e sull'affinamento delle risposte.

Utilizzo del Contesto

Prendiamo le prime 1.000 parole dai 10 frammenti principali relativi alla domanda come contesto per la generazione delle risposte. Questo contesto è fondamentale per garantire che le risposte prodotte siano di alta qualità e accurate.

Esempi Few-shot

Includiamo esempi predefiniti dal dataset di addestramento per guidare l'LLM nella produzione di risposte nel formato richiesto.

Modelli di Risposta

Abbiamo progettato modelli specifici per diversi tipi di domande per standardizzare il modo in cui le risposte vengono formattate attraverso i diversi tipi di domande.

Domande Sì/No

Per una domanda sì/no, il prompt potrebbe apparire così:

  • Contesto: Informazioni rilevanti.
  • Domanda: La proteina è secreta?
  • Risposta Ideale: Sì, la proteina è secreta.
  • Risposta Esatta: Sì.
Domande Fattuali e a Elenco

Modelli simili sono stati creati per domande fattuali e a elenco, con lievi aggiustamenti nel modo in cui le risposte ideali ed esatte vengono presentate.

Risultati e Analisi

Panoramica delle Prestazioni

In questa sezione presenteremo e analizzeremo come i nostri sistemi hanno performato nei compiti BioASQ Task 12b e Synergy.

Compito Synergy

Abbiamo presentato cinque sistemi per il compito Synergy per valutare l'efficacia dei diversi modelli di linguaggio pre-addestrati e strategie.

######## Risultati di Recupero delle Informazioni

Le prestazioni del sistema sono state analizzate in base alla media aritmetica delle precisioni (MAP) sia per il Recupero di documenti che di frammenti. In generale, un sistema ha performato meglio con un punteggio MAP di 0.0434 per il recupero di documenti.

######## Risultati di Risposta alle Domande

Per l'aspetto della risposta alle domande, il nostro miglior sistema ha ottenuto un punteggio F1 di 0.62 per domande sì/no, 0.3182 punteggio MRR per domande fattuali e un punteggio F1 di 0.22 per domande a elenco.

Task 12B

Abbiamo ampliato le nostre metodologie includendo la generazione diretta di query e migliorando il processo di reranking per recuperare documenti più pertinenti.

Metodo di Query Migliorato

Sono stati osservati miglioramenti significativi quando abbiamo aumentato il numero di documenti iniziali recuperati. L'aggiunta di tecniche come il resampling delle risposte ha ulteriormente migliorato le prestazioni del nostro sistema.

Metriche di Prestazione

Nella submission Batch 2 per il Task 12B, abbiamo raggiunto:

  • Recupero Documenti: punteggio MAP di ~0.081.
  • Recupero Frammenti: miglior punteggio MAP di 0.0271.
  • Per le domande sì/no, abbiamo raggiunto punteggi F1 fino a 0.96.

Direzioni Future

Miglioramenti Suggeriti

Per migliorare ulteriormente i nostri sistemi, abbiamo delineato potenziali aree di focus:

Miglioramenti nel Recupero delle Informazioni

Attualmente, recuperiamo un numero limitato di documenti. Gli sforzi futuri coinvolgeranno l'embedding di tutti i documenti PubMed in anticipo e il loro stoccaggio in un database vettoriale per consentire un recupero e una lavorazione più rapidi.

Esplorazione della Segmentazione dei Documenti

Indagare se dividere i documenti in parti più piccole e gestibili può migliorare le prestazioni di recupero calcolando la somiglianza per ciascun segmento.

Sfruttare il Dataset BioASQ

Nel campo della risposta alle domande, non abbiamo ancora sfruttato appieno il potenziale del dataset BioASQ. Il lavoro futuro consisterà nel fine-tuning dei nostri modelli su questo dataset per migliorare le prestazioni.

Utilizzo di Nuovi Metodi

Esploreremo anche l'utilizzo della Low Rank Adaptation (LoRA) per un fine-tuning efficiente di modelli di grandi dimensioni.

Conclusione

Il nostro team è riuscito a sviluppare e implementare sistemi di recupero informazioni e di risposta alle domande per i compiti di BioASQ. Abbiamo impiegato modelli di linguaggio di grandi dimensioni pre-addestrati e affinato i metodi di risposta per ottenere interazioni e risultati di alta qualità.

Panoramica dei Risultati

Il nostro sistema con le migliori prestazioni ha raggiunto punteggi di performance notevoli. Speriamo che la nostra ricerca fornisca spunti ad altri che vogliono avanzare i sistemi di risposta alle domande biomediche utilizzando modelli di linguaggio di grandi dimensioni.

Riconoscimenti

Apprezziamo il supporto del nostro team di ricerca e riconosciamo l'utilizzo di strumenti per la correzione di questo documento.

Modelli di Prompt per Vari Tipi di Domande

Domande a Elenco

  • Contesto: Informazioni di base relative alla domanda.
  • Domanda: Quali sono i geni rilevanti?
  • Risposta Ideale: I geni collegati all'argomento sono...
  • Risposta Esatta: Elenco di geni.

Domande Fattuali

  • Contesto: Informazioni descrittive rilevanti per la domanda.
  • Domanda: Quale proteina è coinvolta?
  • Risposta Ideale: La proteina associata è...
  • Risposta Esatta: Nome della proteina.

Domande di Riassunto

  • Contesto: Dettagli completi sul soggetto.
  • Domanda: Quali sono i risultati dello studio?
  • Risposta: Riassunto dei risultati.

Esempi di Prompt

Prompt per Domanda Sì/No
  • Contesto: Dati rilevanti presentati.
  • Domanda: Il trattamento è efficace?
  • Risposta Ideale: Sì, il trattamento è efficace.
  • Risposta Esatta: Sì.
Prompt per Domanda a Elenco
  • Contesto: Studi e risultati rilevanti.
  • Domanda: Quali condizioni sono correlate?
  • Risposta Ideale: Le condizioni includono...
  • Risposta Esatta: Elenco delle condizioni.

Questo formato serve come base per l'interazione con i modelli di linguaggio, aiutandoci a raccogliere informazioni accurate in modo efficace.

Fonte originale

Titolo: Using Pretrained Large Language Model with Prompt Engineering to Answer Biomedical Questions

Estratto: Our team participated in the BioASQ 2024 Task12b and Synergy tasks to build a system that can answer biomedical questions by retrieving relevant articles and snippets from the PubMed database and generating exact and ideal answers. We propose a two-level information retrieval and question-answering system based on pre-trained large language models (LLM), focused on LLM prompt engineering and response post-processing. We construct prompts with in-context few-shot examples and utilize post-processing techniques like resampling and malformed response detection. We compare the performance of various pre-trained LLM models on this challenge, including Mixtral, OpenAI GPT and Llama2. Our best-performing system achieved 0.14 MAP score on document retrieval, 0.05 MAP score on snippet retrieval, 0.96 F1 score for yes/no questions, 0.38 MRR score for factoid questions and 0.50 F1 score for list questions in Task 12b.

Autori: Wenxin Zhou, Thuy Hang Ngo

Ultimo aggiornamento: 2024-07-09 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2407.06779

Fonte PDF: https://arxiv.org/pdf/2407.06779

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili