Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Rivoluzionare la classificazione dei documenti con gli LLM

I grandi modelli di linguaggio migliorano la classificazione dei documenti, riducendo la dipendenza dai dati di addestramento.

Anna Scius-Bertrand, Michael Jungo, Lars Vögtlin, Jean-Marc Spat, Andreas Fischer

― 8 leggere min


Rivoluzione nellaRivoluzione nellaClassificazione deiDocumentiesempi.classificazione dei documenti con menoI LLM stanno rivoluzionando la
Indice

Classificare documenti da immagini scansionate è una cosa complicata. Non si tratta solo di guardare un'immagine; bisogna capire cosa sta dicendo il documento, come è strutturato e anche la qualità dell'immagine. Questo compito è diventato un po' più facile nel tempo, specialmente con il dataset RVL-CDIP che contiene un gran numero di immagini di documenti etichettati, il che ha aiutato a far avanzare le tecniche nella classificazione delle immagini di documenti.

Con l'ascesa dei modelli di linguaggio di grandi dimensioni (LLM), è emersa una nuova speranza. Gli LLM hanno dimostrato di poter fare il lavoro anche con pochissimi esempi da cui apprendere. Quindi, la grande domanda è: possiamo classificare documenti senza avere un'enorme quantità di campioni di addestramento? Questa esplorazione porta all'indagine sul prompting zero-shot e sul fine-tuning few-shot.

La sfida della classificazione dei documenti

Immagina di avere montagne di documenti scansionati-lettere, moduli, email e appunti scritti a mano. Identificare cosa è ciascun documento può sembrare come cercare un ago in un pagliaio. Qui entra in gioco la classificazione. Per classificare accuratamente questi documenti, si usano varie tecniche, come l'analisi del testo e della disposizione.

Tuttavia, molti modelli avanzati richiedono un'enorme quantità di documenti etichettati per funzionare bene. Nel caso di RVL-CDIP, servono 320.000 documenti etichettati solo per identificare 16 tipi di documenti. Un gran lavoro per gli esseri umani! Se i tipi di documenti cambiano o se emerge un nuovo dataset, significa tornare indietro e etichettare tutto di nuovo, ed è una seccatura.

Entra in gioco i modelli di linguaggio di grandi dimensioni

I modelli di linguaggio di grandi dimensioni, o LLM, hanno catturato l'attenzione ultimamente. Questi modelli possono elaborare enormi quantità di testo e imparare a svolgere compiti con sorprendentemente pochi esempi, a volte nessuno! Sono come l'amico intelligente che può rispondere a domande di cultura generale dopo aver solo dato una rapida occhiata all'argomento.

Sfruttando le loro capacità di comprensione del testo, gli LLM possono elaborare il testo dei documenti utilizzando il riconoscimento ottico dei caratteri (OCR).

Zero-shot Prompting e Few-shot Fine-tuning

Quindi, come mettiamo alla prova questi LLM? La ricerca si addentra nel prompting zero-shot, dove si chiede al modello di classificare un documento senza mostrargli prima alcun esempio. È come dire: "Ehi, indovina di cosa parla questo documento!"

D'altra parte, c'è il fine-tuning few-shot, dove dai al modello un pugno di esempi da cui apprendere. Questo scenario è più complicato, ma può portare a risultati migliori. L'obiettivo è ridurre la necessità di quei fastidiosi campioni di addestramento annotati da esseri umani.

Benchmarking dei modelli

I ricercatori hanno condotto una massiccia valutazione di benchmarking utilizzando vari LLM all'avanguardia. Hanno definito diversi scenari di addestramento, partendo dal prompting zero-shot, dove viene fornita solo una descrizione del compito, fino al fine-tuning few-shot. L'idea era confrontare quanto bene funzionano questi approcci per la classificazione dei documenti.

Hanno incluso una varietà di modelli nel loro studio, compresi modelli basati su testo, modelli basati su immagini e persino modelli multi-modali che lavorano sia con testo che con immagini.

Il dataset RVL-CDIP

Il dataset RVL-CDIP è come il scrigno del tesoro di questa ricerca. Include 400.000 immagini etichettate di documenti, il che aiuta a spingere la comprensione della classificazione dei documenti. Vari tipi di documenti sono rappresentati, dalle lettere ai curricula.

Per quanto ottimo sia questo dataset, ha alcune sfide. Il testo di questi documenti deve spesso passare attraverso l'OCR per l'analisi. Anche con ottimi strumenti OCR, ci sono comunque intoppi. A volte, parti del documento possono essere difficili da leggere a causa della bassa qualità. Inoltre, alcuni documenti contengono pochissimo testo, rendendo più difficile la classificazione.

Metodi diversi per la classificazione dei documenti

Diversi metodi vengono utilizzati per affrontare la sfida della classificazione. Ognuno ha i suoi punti di forza e debolezza.

Classificazione basata su testo

In questo metodo, si applica l'OCR per convertire le immagini dei documenti in testo leggibile dalla macchina. I ricercatori hanno utilizzato Textract di Amazon, che ha fatto un buon lavoro nel trasformare i documenti scansionati in testo. Una volta ottenuto il testo, può essere alimentato agli LLM per classificare i documenti in base al contenuto.

Gli LLM presi in considerazione includono vari modelli top dell'attuale tecnologia, con una menzione speciale per modelli come GPT di OpenAI. Questi modelli sono stati pre-addestrati su enormi dataset di testo e affinati per fornire risultati accurati in vari compiti.

Tecniche di prompting

I ricercatori hanno creato diversi prompt di sistema, che sono come istruzioni per i modelli. Un buon prompt può portare a risultati eccellenti. Questi prompt guidano gli LLM nella classificazione dei documenti. Hanno anche lavorato per migliorare i prompt utilizzando lo stesso LLM per aumentarne l'efficacia.

Ad esempio, il prompt iniziale potrebbe chiedere al modello di classificare il documento, ma con miglioramenti, potrebbe diventare più preciso, chiedendo solo il nome della categoria senza informazioni extra. Questo affinamento del prompt è cruciale per ottenere una migliore accuratezza nella classificazione.

Fine-tuning Few-Shot

Questo metodo implica effettivamente l'adeguamento del modello con alcuni esempi. Utilizzando un metodo chiamato Low-Rank Adaptation (LoRA), il modello viene addestrato su un dataset più piccolo per aiutarlo a classificare meglio i documenti. Regolando alcuni strati del modello, può adattarsi più rapidamente a nuovi compiti.

Il processo di fine-tuning può essere complicato, specialmente per i modelli più grandi, quindi i ricercatori hanno trovato modi per rendere questo più efficiente. Hanno anche confrontato con altri modelli per vedere quale performava meglio per la classificazione dei documenti.

Metodi basati su embedding

Un altro approccio prevede di rappresentare il testo OCR come singoli punti o "embedding" nello spazio. In questo modo, ciascun documento può essere confrontato in base alla sua posizione in questo spazio. I ricercatori hanno utilizzato una tecnica come il k-nearest neighbor (KNN) per classificare i documenti in base ai loro embedding.

Metodi basati su immagini

Alcuni modelli, come Donut, lavorano direttamente con le immagini senza coinvolgere l'OCR. Questo è particolarmente utile poiché questi modelli possono apprendere dai contesti visivi piuttosto che solo dal testo. Di conseguenza, possono talvolta raggiungere una migliore accuratezza, specialmente quando la qualità dell'OCR è bassa.

Tecniche Multi-Modali

I progressi recenti hanno permesso ai modelli di lavorare con input sia di immagini che di testo. Ad esempio, GPT-4-Vision può analizzare sia il testo OCR che l'immagine simultaneamente per prendere una decisione di classificazione. Questo incrociarsi tra input testuali e visivi può portare a prestazioni migliori.

Valutazione sperimentale

I ricercatori hanno messo alla prova tutti questi metodi. Hanno impostato esperimenti per analizzare quanto bene funzionassero diversi approcci in vari scenari, misurando le prestazioni in base ai tassi di accuratezza e alle risposte non valide.

Diversi campioni di addestramento sono stati utilizzati nei loro esperimenti per vedere come l'accuratezza fosse influenzata dal numero di campioni di addestramento disponibili. Come previsto, più campioni di addestramento generalmente portavano a migliori prestazioni, ma i metodi zero-shot e few-shot hanno comunque mostrato potenziale promettente.

Risultati e scoperte

Sulla base delle valutazioni, sono emerse alcune tendenze chiare. Con il prompting zero-shot, gli LLM hanno mostrato una gamma piuttosto ampia di prestazioni. I modelli multi-modali, in particolare GPT-4-Vision, hanno fatto particolarmente bene, dimostrando che l'uso delle immagini ha aiutato significativamente nella classificazione dei documenti.

Quando si trattava di fine-tuning, il modello più piccolo, Mistral-7B, si è rivelato efficace nell'adattarsi rapidamente ai compiti di classificazione anche con solo alcuni esempi. L'approccio generativo ha anche brillato, dimostrando flessibilità e producendo risultati solidi in diversi scenari.

Tuttavia, i modelli tendevano a produrre risposte invalide, a volte divagando invece di attenersi al compito. Questo evidenzia l'importanza di affinare i prompt e i metodi di addestramento per migliorare ulteriormente i risultati.

Riepilogo delle prestazioni di classificazione

Dopo test approfonditi, la ricerca ha fornito un riepilogo delle prestazioni di vari modelli in diversi scenari. Hanno evidenziato i migliori approcci per ciascun compito, considerando sia gli scenari zero-shot che few-shot.

In termini di prestazioni zero-shot, i grandi LLM di OpenAI hanno impressionato con la loro alta accuratezza. Per il fine-tuning, le prestazioni del modello Mistral-7B sono state notevoli, dato che si è adattato rapidamente ai compiti anche con dati di addestramento limitati.

Direzioni future

La ricerca sottolinea che c'è ancora molto da fare nel campo della classificazione dei documenti. Per quanto promittenti siano stati i risultati, c'è molto potenziale per miglioramenti. Ulteriori esplorazioni nei modelli di fondazione dei documenti potrebbero portare a prestazioni ancora migliori.

Integrare più informazioni visive nei modelli sembra cruciale per ottenere risultati superiori. Oltre a ciò, migliorare i prompt e sperimentare con diverse strategie di apprendimento per dati non etichettati potrebbe aiutare a spingere oltre il limite.

Conclusione

Classificare documenti è un compito complesso, ma i progressi negli LLM hanno aperto nuove opportunità per affrontarlo in modo efficace. Spingendo per scenari di apprendimento zero-shot e few-shot, i ricercatori hanno tracciato un percorso per future innovazioni nel campo.

Man mano che la tecnologia continua a evolversi, si aprono porte a nuovi metodi, strategie e combinazioni che possono migliorare la comprensione e la classificazione dei documenti. Con la ricerca in corso, il sogno di classificare documenti con un input umano minimo potrebbe presto diventare realtà. Quindi, incrociamo le dita-e magari teniamo i nostri documenti in ordine!

Articoli simili