Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Intelligenza artificiale

Avanzare l'estrazione dei dati sanitari con strumenti di intelligenza artificiale

Un nuovo strumento di intelligenza artificiale semplifica l'estrazione dei dati da registri sanitari non strutturati in modo efficiente.

― 4 leggere min


Strumento AI perStrumento AI perl'estrazione dei datisanitarisanitari.l'efficienza nell'estrazione dei datiNuovo strumento AI migliora
Indice

Negli ultimi anni, i record sanitari sono diventati digitali, permettendo ai ricercatori di accedere a grandi quantità di informazioni sui pazienti. Però, molte di queste informazioni sono non strutturate, il che significa che non sono organizzate in modo chiaro. Ad esempio, le note dei medici possono essere scritte in testo libero invece che in tabelle. Anche se questo testo libero può offrire spunti preziosi, estrarre dati utili da esso può essere complicato e richiedere tempo.

Il Problema dei Dati Non Strutturati

Usare dati non strutturati nella ricerca è difficile per vari motivi. Prima di tutto, estrarre dati da campi di testo libero è spesso un compito laborioso, che richiede molto tempo e lavoro manuale. In secondo luogo, questi testi possono variare ampiamente nel modo in cui sono scritti, rendendo difficile confrontare dati provenienti da fonti diverse. Infine, la qualità e la completezza delle informazioni potrebbero non essere costanti, il che complica gli sforzi di ricerca.

Un Nuovo Approccio

Recentemente, i progressi nell'intelligenza artificiale (AI) hanno introdotto Strumenti che possono aiutare a affrontare questo problema. Un approccio prevede l'uso di modelli di linguaggio di grandi dimensioni (LLMs) che possono analizzare i dati senza bisogno di un lungo addestramento precedente. Questo è conosciuto come Zero-shot Learning, dove il modello può estrarre informazioni in modo accurato senza essere stato specificamente addestrato su di esse.

Sviluppo dello Strumento

È stato sviluppato un nuovo strumento utilizzando un modello di linguaggio che sfrutta lo zero-shot learning per estrarre informazioni da dati sanitari non strutturati trovati in documenti PDF. Lo strumento funziona analizzando report di procedure di prostatectomia radicale, che sono report chirurgici spesso complessi e contenenti molto testo libero.

Come Funziona lo Strumento

Il processo di utilizzo di questo strumento è semplice. Gli utenti forniscono una serie di documenti PDF e chiedono allo strumento di estrarre informazioni specifiche, come il nome di un medico o dettagli medici specifici. Lo strumento usa varie librerie di programmazione per leggere il testo dai PDF, lo elabora e poi estrae le informazioni necessarie in base alla richiesta dell'utente. Infine, i risultati vengono inseriti in un foglio Excel per un'analisi facile.

Vantaggi dello Strumento

Uno dei principali vantaggi di usare questo strumento è la sua velocità. È stato scoperto che può completare i compiti molto più velocemente degli astrattori umani. Questo significa che i ricercatori possono dedicare meno tempo al processo laborioso di estrazione dei dati, permettendo loro di concentrarsi su attività di ricerca più importanti.

I dati dalla fase di test hanno indicato che il software poteva elaborare informazioni in un tempo medio di circa 12-16 secondi per report, mentre gli astrattori umani di solito impiegavano circa 100 secondi. Questo rappresenta un notevole vantaggio in termini di risparmio di tempo.

Accuratezza dello Strumento

In termini di accuratezza, lo strumento ha mostrato risultati impressionanti. Ha raggiunto un tasso di accuratezza complessivo del 94% nell'elaborazione dei report di migliore qualità, che è paragonabile ai tassi di accuratezza degli astrattori umani. Anche se lo strumento ha fatto leggermente peggio con i report scansionati a causa di errori potenziali durante il processo di conversione del testo, ha comunque funzionato adeguatamente, mostrando un livello significativo di accuratezza rispetto ai colleghi umani.

Analisi degli Errori

Lo strumento ha incontrato alcune difficoltà nell'estrarre certi tipi di dati. Gli errori possono verificarsi per vari motivi, come fraintendere il contesto di una domanda o non fornire abbastanza dettagli nella risposta. Ad esempio, potrebbe offrire un termine generale invece del valore specifico necessario.

L'Importanza di Richieste Chiare

Il modo in cui un utente pone una domanda può influenzare significativamente le prestazioni dello strumento. Richieste chiare e precise portano a risultati migliori. I ricercatori devono formulare le loro domande in termini semplici per ottenere le risposte più accurate dallo strumento.

Prospettive Future

Le capacità di questo strumento possono essere ampliate oltre le sole applicazioni mediche. Poiché non richiede un addestramento specifico per ogni compito, può essere adattato a vari settori che richiedono astrazione dei dati da testo Non strutturato. Questo significa che industrie come finanza, legge e scienze sociali potrebbero anch'esse beneficiare di tale tecnologia.

Necessità di Miglioramento

Anche se lo strumento ha mostrato risultati promettenti, ci sono ancora aree da migliorare. Potenziare le capacità di Riconoscimento Ottico dei Caratteri (OCR) potrebbe aiutare a migliorare l'accuratezza, soprattutto quando si convertono documenti scansionati in testo. Questo affinamento potrebbe ridurre ulteriormente gli errori e migliorare le prestazioni complessive.

Conclusione

Lo sviluppo di questo strumento rappresenta un passo importante avanti nel campo dell'estrazione dei dati da testo non strutturato nel settore sanitario. Fornendo ai ricercatori un metodo affidabile per astrarre dati in modo rapido e accurato, apre nuove possibilità per la ricerca clinica. Con ulteriori miglioramenti, questa tecnologia potrebbe diventare un asset prezioso in vari settori oltre la medicina.

Fonte originale

Titolo: Validation of a Zero-Shot Learning Natural Language Processing Tool for Data Abstraction from Unstructured Healthcare Data

Estratto: Objectives: To describe the development and validation of a zero-shot learning natural language processing (NLP) tool for abstracting data from unstructured text contained within PDF documents, such as those found within electronic health records. Materials and Methods: A data abstraction tool based on the GPT-3.5 model from OpenAI was developed and compared to three physician human abstractors in terms of time to task completion and accuracy for abstracting data on 14 unique variables from a set of 199 de-identified radical prostatectomy pathology reports. The reports were processed by the software tool in vectorized and scanned formats to establish the impact of optical character recognition on data abstraction. The tool was assessed for superiority for data abstraction speed and non-inferiority for accuracy. Results: The human abstractors required a mean of 101s per report for data abstraction, with times varying from 15 to 284 s. In comparison, the software tool required a mean of 12.8 s to process the vectorized reports and a mean of 15.8 to process the scanned reports (P < 0.001). The overall accuracies of the three human abstractors were 94.7%, 97.8%, and 96.4% for the combined set of 2786 datapoints. The software tool had an overall accuracy of 94.2% for the vectorized reports, proving to be non-inferior to the human abstractors at a margin of -10% ($\alpha$=0.025). The tool had a slightly lower accuracy of 88.7% using the scanned reports, proving to be non-inferiority to 2 out of 3 human abstractors. Conclusion: The developed zero-shot learning NLP tool affords researchers comparable levels of accuracy to that of human abstractors, with significant time savings benefits. Because of the lack of need for task-specific model training, the developed tool is highly generalizable and can be used for a wide variety of data abstraction tasks, even outside the field of medicine.

Autori: Basil Kaufmann, Dallin Busby, Chandan Krushna Das, Neeraja Tillu, Mani Menon, Ashutosh K. Tewari, Michael A. Gorin

Ultimo aggiornamento: 2023-07-23 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2308.00107

Fonte PDF: https://arxiv.org/pdf/2308.00107

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili