Progressi nell'IA per la generazione di report medici
La ricerca svela nuovi metodi per la scrittura automatica di referti diagnostici usando l'IA.
― 6 leggere min
Indice
- Il Set di Dati
- Progressi nell'Intelligenza Artificiale
- Fase di pre-addestramento
- Fase di Ottimizzazione
- Lavori Correlati
- Generazione di Testo nel Processamento del Linguaggio Naturale
- Retrieval Augmentation nel Processamento del Linguaggio Naturale
- Dettagli della Fase di Pre-addestramento
- Dettagli della Fase di Ottimizzazione
- Similarity Bucketing
- Trucchi del Modello
- Risultati
- Fonte originale
- Link di riferimento
Nel campo dell'intelligenza artificiale medica, generare report diagnostici da immagini mediche è un'area di studio importante. Con i progressi della tecnologia nel processamento del linguaggio naturale, la capacità di creare automaticamente questi report sta diventando sempre più pratica. Tradizionalmente, questo lavoro richiede molto tempo e dipende fortemente dall'esperienza dei radiologi nel redigere report dettagliati, che possono essere influenzati da pregiudizi personali.
Il Set di Dati
Nella nostra ricerca, utilizziamo un set di dati specifico dove le informazioni cliniche e le descrizioni servono come input e la diagnosi è l'output. Anche il set di dati della competizione subisce un processo di anonimizzazione del testo, il che significa che le parole vengono trasformate in numeri separati da spazi.
Progressi nell'Intelligenza Artificiale
Recentemente, i ricercatori si sono concentrati su come i Modelli di Deep Learning possano essere utilizzati per generare report diagnostici accurati automaticamente. Questi modelli di solito dipendono da grandi quantità di dati annotati, che includono descrizioni di diagnosi di imaging medico e i relativi report scritti da esperti.
Poiché i dati sono anonimizzati, è difficile ottimizzare i modelli pre-addestrati esistenti. Per risolvere questo problema, abbiamo scelto un modello chiamato Chinese CPT-BASE come base. Abbiamo aggiunto i numeri desensibilizzati al suo vocabolario e aggiustato il processo di pre-addestramento per adattarlo meglio al nostro compito.
Fase di pre-addestramento
Durante la fase di pre-addestramento, abbiamo fatto cambiamenti significativi al nostro modello base per assicurarci che si preparasse bene per le fasi successive di addestramento. Abbiamo rimosso un compito specifico che non era adatto ai nostri obiettivi e ci siamo concentrati su un metodo che aiuta a capire meglio il contesto. Questo ha comportato l'uso di una strategia di mascheramento che permette di nascondere parti dell'input e di prevederle poi dal modello, rendendo anche il pre-addestramento progressivamente più impegnativo.
Fase di Ottimizzazione
Una volta che avevamo il nostro modello pronto, siamo entrati nella fase di ottimizzazione. Qui, abbiamo implementato un nuovo approccio chiamato retrieval augmentation, che migliora la capacità del modello di apprendere dai dati. Per ogni campione di input, abbiamo utilizzato una parte della descrizione per trovare coppie simili in una mini-base di conoscenza che abbiamo costruito. Questo ha aggiunto informazioni preziose che hanno migliorato le prestazioni del modello.
Abbiamo anche introdotto un nuovo metodo che categorizza i dati di addestramento in base ai livelli di rumore. Questo metodo aiuta il modello ad apprendere a generare report diagnostici di alta qualità concentrandosi di più su esempi più chiari.
Lavori Correlati
Generazione di Testo nel Processamento del Linguaggio Naturale
La generazione di testo è un'area di ricerca attiva nel processamento del linguaggio naturale. Questo coinvolge l'uso di sistemi informatici per creare testi che imitano la lingua umana. Le applicazioni includono la traduzione automatica, il servizio clienti e la scrittura creativa. I recenti progressi hanno compiuto passi significativi in questo campo, in particolare nella creazione di riassunti e nella generazione di testi basati su input.
Retrieval Augmentation nel Processamento del Linguaggio Naturale
La Retrieval Augmented Generation (RAG) è un'area promettente nel processamento del linguaggio naturale. I metodi tradizionali che si basano unicamente su grandi modelli linguistici possono avere difficoltà con domande complesse che richiedono una vasta conoscenza di base. RAG combina metodi di recupero standard con modelli generativi moderni, consentendo al modello di accedere a più informazioni prima di generare testo. Questo migliora le capacità del modello in compiti che richiedono conoscenze da fonti esterne.
Dettagli della Fase di Pre-addestramento
Nel nostro set di dati, le informazioni cliniche e le descrizioni sono i nostri input, mentre il report diagnostico è il nostro output desiderato. Abbiamo impostato il compito in modo che il modello potesse apprendere a generare una diagnosi basata su dati clinici e descrizioni.
Per il pre-addestramento, abbiamo inizialmente impiegato il nostro modello base composto da strati progettati per gestire la generazione di testo. Dopo aver apportato modifiche al vocabolario, abbiamo preparato il modello per i prossimi passi.
Abbiamo scelto una strategia di mascheramento specifica basata sui pattern che abbiamo notato nel testo. Utilizzando una distribuzione di Poisson, abbiamo potuto controllare la lunghezza delle sezioni mascherate in modo da adattarle alle caratteristiche della scrittura di report medici.
Dettagli della Fase di Ottimizzazione
Durante la fase di ottimizzazione, abbiamo stabilito un processo per migliorare la comprensione del nostro modello attraverso una strategia di recupero iterativa. Qui, abbiamo costruito una base di conoscenza dal set di addestramento per un riferimento futuro. Ogni voce in questa base consiste di una descrizione e del suo report diagnostico corrispondente.
Per trovare coppie simili, abbiamo calcolato la somiglianza tra le descrizioni attuali e quelle memorizzate nella nostra base di conoscenza. Se una corrispondenza era abbastanza buona, abbiamo aggiunto quell'informazione al nuovo campione di addestramento.
Man mano che continuiamo con il processo di recupero, notiamo che il modello migliora ad ogni iterazione. Questo ci ha spinti a usare modelli aggiornati per recuperare nuovi dati, migliorando efficacemente i nostri risultati.
Similarity Bucketing
Un fattore chiave nel migliorare i nostri risultati è stato il metodo di similarity bucketing consapevole del rumore. Categorizzando i nostri dati di addestramento in base a quanto erano rilevanti, siamo riusciti a garantire che il modello si concentrasse sugli esempi di qualità superiore. Abbiamo etichettato ogni categoria utilizzando termini come 'miglior abbinamento' e 'abbinamento rumoroso' per aiutare il modello a capire quali coppie fossero più utili per generare report accurati.
Trucchi del Modello
Per assicurarci che il nostro modello funzionasse bene, abbiamo adottato diverse strategie. Aggiungere leggero rumore ai dati del modello durante l'addestramento aiuta a migliorarne la robustezza. Abbiamo anche utilizzato tecniche che regolano come il modello apprende da diversi neuroni, il che migliora la sua capacità di generalizzare dai dati di addestramento.
Combinando con attenzione le previsioni di più modelli, possiamo migliorare l'affidabilità dei nostri risultati finali. Questo combina vari set di addestramento e seleziona la migliore risposta possibile.
Risultati
I risultati dei nostri componenti hanno mostrato un notevole miglioramento delle prestazioni. Con le strategie che abbiamo messo in atto, il nostro modello è riuscito a raggiungere punteggi impressionanti. I punteggi del nostro modello singolo erano già competitivi, e quando abbiamo combinato diversi modelli, abbiamo ottenuto classifiche ancora più alte.
Il set di addestramento iniziale conteneva un numero significativo di campioni, e man mano che progredivamo verso la fase successiva con set di addestramento più grandi, i nostri risultati continuavano a migliorare.
In definitiva, abbiamo ottenuto la posizione di vertice nella competizione grazie alle strategie innovative impiegate sia nelle fasi di pre-addestramento che di ottimizzazione. Raffinando i nostri metodi e migliorando il processo di apprendimento del modello, abbiamo fatto passi da gigante nel campo della generazione automatizzata di report diagnostici nell'imaging medico.
Titolo: First Place Solution of 2023 Global Artificial Intelligence Technology Innovation Competition Track 1
Estratto: In this paper, we present our champion solution to the Global Artificial Intelligence Technology Innovation Competition Track 1: Medical Imaging Diagnosis Report Generation. We select CPT-BASE as our base model for the text generation task. During the pre-training stage, we delete the mask language modeling task of CPT-BASE and instead reconstruct the vocabulary, adopting a span mask strategy and gradually increasing the number of masking ratios to perform the denoising auto-encoder pre-training task. In the fine-tuning stage, we design iterative retrieval augmentation and noise-aware similarity bucket prompt strategies. The retrieval augmentation constructs a mini-knowledge base, enriching the input information of the model, while the similarity bucket further perceives the noise information within the mini-knowledge base, guiding the model to generate higher-quality diagnostic reports based on the similarity prompts. Surprisingly, our single model has achieved a score of 2.321 on leaderboard A, and the multiple model fusion scores are 2.362 and 2.320 on the A and B leaderboards respectively, securing first place in the rankings.
Autori: Xiangyu Wu, Hailiang Zhang, Yang Yang, Jianfeng Lu
Ultimo aggiornamento: 2024-07-03 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.01271
Fonte PDF: https://arxiv.org/pdf/2407.01271
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.