Avanzare il Riconoscimento delle Parole Chiave nei Documenti Scritto a Mano
Un nuovo approccio migliora il riconoscimento delle parole chiave nei testi storici scritti a mano usando l'apprendimento auto-supervisionato.
― 5 leggere min
Indice
La ricerca di parole chiave consiste nel trovare parole specifiche in documenti scritti a mano. Molti documenti storici non sono facili da cercare perché mancano di un'adeguata indicizzazione. I metodi tradizionali per riconoscere il testo dalle immagini, come la trascrizione manuale, sono lenti e costosi. Gli attuali sistemi di riconoscimento ottico dei caratteri (OCR) funzionano bene con il testo stampato moderno ma fanno fatica con i vecchi documenti scritti a mano, che spesso presentano vari problemi come sbiadimenti, stili di scrittura differenti e rumore.
Una soluzione è abbinare le parole nelle immagini in base al loro aspetto. Questo metodo non richiede che tutte le parole siano riconosciute; invece, si concentra nel trovare dove potrebbe apparire una parola specifica nel documento. I ricercatori hanno sviluppato diverse strategie per questo compito, guardando ogni parola isolata o elaborando l'intera pagina.
Le Sfide dell'Analisi dei Documenti Scritti a Mano
Trovare parole in documenti scritti a mano è un'area di ricerca complessa. I metodi iniziali si basavano su caratteristiche create a mano e non utilizzavano tecniche di apprendimento. Con i progressi nel machine learning, in particolare utilizzando le reti neurali convoluzionali (CNN), le prestazioni sono migliorate ma hanno ancora delle limitazioni. Le CNN sono sensibili ai cambiamenti di orientamento e fanno fatica a catturare relazioni più ampie all'interno del testo.
Recentemente, i transformers hanno attirato attenzione per la loro efficacia nell'elaborare il linguaggio e le immagini. La loro caratteristica di autoattenzione aiuta a catturare meglio le relazioni essenziali tra le parole rispetto alle CNN. Tuttavia, i transformers necessitano di enormi quantità di dati etichettati per funzionare bene, e ottenere enough dataset etichettati è spesso difficile, specialmente per i documenti storici.
Il Metodo Proposto: Apprendimento Auto-Supervisionato
Per superare queste sfide, è stato sviluppato un approccio innovativo chiamato ST-KeyS. Questo metodo utilizza l'apprendimento auto-supervisionato per analizzare la ricerca di parole chiave senza bisogno di molti dati etichettati. Invece, si concentra sull'apprendimento dalla grande quantità di dati non etichettati disponibili.
Il sistema ha due parti principali:
Fase di Pretraining: Questa fase utilizza un autoencoder mascherato per imparare a rappresentare le immagini delle parole senza alcuna etichetta. Nasconde randomicamente parti dell'immagine e addestra il modello a prevedere le parti mancanti in base a ciò che può vedere.
Fase di Fine-Tuning: Dopo che il modello ha imparato a rappresentare le parole dai dati non etichettati, viene raffinato utilizzando un set più piccolo di dati etichettati. Questo passaggio è fondamentale per rendere il modello più preciso nel rilevare le parole chiave.
Il fine-tuning combina le caratteristiche visive estratte dalle immagini e le informazioni testuali per creare un sistema di individuazione robusto.
I Passi Coinvolti
Fase di Pretraining
Nella fase di pretraining, il modello impara dalle immagini non etichettate. Il processo inizia suddividendo ogni immagine in pezzi più piccoli. Una parte significativa di questi pezzi (75%) è nascosta randomicamente. Il modello cerca quindi di ricostruire l'immagine originale dalle parti visibili. Questo metodo consente al modello di apprendere caratteristiche importanti anche quando non può vedere l'immagine intera.
L'encoder utilizzato in questa fase è progettato per elaborare solo le parti visibili dell'immagine. Cattura i modelli importanti all'interno di queste parti, e il decoder utilizza queste informazioni apprese per ricostruire i pezzi nascosti.
Fase di Fine-Tuning
Una volta che il modello ha appreso rappresentazioni utili, entra nella fase di fine-tuning. Questo passaggio utilizza un'architettura a Rete Neurale Siamese che consente al modello di confrontare direttamente due immagini. Aiuta il modello a imparare a distinguere meglio tra immagini simili e diverse.
Inoltre, viene utilizzata una tecnica di embedding PHOC per creare una rappresentazione testuale basata sui caratteri presenti nella parola. Allineando le caratteristiche visive delle immagini con gli attributi PHOC, il modello riesce a individuare le parole chiave in modo più accurato.
Dataset Utilizzati per la Valutazione
Il metodo proposto è stato testato su diversi dataset che includono documenti scritti a mano. Il dataset IAM consiste in vari documenti scritti a mano in inglese, ideale per il pretraining del sistema. Altri dataset utilizzati per il fine-tuning e i test sono stati Botany, Alvermann Konzilsprotokolle e George Washington. Questi dataset sono stati scelti per la loro importanza storica e le varie sfide che presentano.
Valutazione e Risultati
Il metodo proposto è stato valutato in base alla sua capacità di individuare parole chiave nei diversi dataset. Le prestazioni sono state misurate utilizzando la media della precisione (mAP), una metrica standard utilizzata nei compiti di recupero delle informazioni.
Risultati sui Dataset ICFHR
Quando testato sui dataset Botany e Alvermann, ST-KeyS ha mostrato risultati promettenti, superando altri metodi come i modelli PHOC tradizionali. Il modello ha anche performato bene con diversi stili di scrittura e variazioni storiche nel testo.
Risultati sul Dataset di George Washington
In una valutazione più focalizzata utilizzando il dataset di George Washington, ST-KeyS ha raggiunto un impressionante punteggio mAP del 95,70%. Questa performance ha evidenziato la capacità del modello di estrarre in modo efficace caratteristiche significative dalle immagini, mostrando i suoi vantaggi rispetto ai metodi più vecchi che si basavano su caratteristiche create a mano.
Risultati Qualitativi
L'analisi qualitativa delle prestazioni del modello ha messo in luce la sua forza nel recuperare le immagini delle parole corrette nonostante la presenza di parole e stili simili. Alcuni fallimenti sono stati notati a causa di lettere poco chiare o parole dall'aspetto simile, che possono confondere il modello.
Vantaggi del Metodo Proposto
ST-KeyS si distingue per la sua capacità di funzionare bene con dati etichettati minimi pur utilizzando un approccio di apprendimento auto-supervisionato. Questo metodo consente di adattarsi a diversi dataset senza la necessità di etichettature estese, affrontando la sfida continua della scarsità di dati nel settore.
Lavori Futuri
La ricerca ha delineato il potenziale per ulteriori miglioramenti, come l'integrazione di un modello linguistico per affinare i risultati e l'esplorazione di metodi senza segmentazione. C'è anche interesse ad applicare questo approccio ad altre aree, compiti di riconoscimento della scrittura.
Il metodo ST-KeyS ha dimostrato che l'apprendimento auto-supervisionato può essere sia efficace che efficiente per la ricerca di parole chiave in documenti storici scritti a mano, ponendo le basi per futuri progressi nel campo.
Titolo: ST-KeyS: Self-Supervised Transformer for Keyword Spotting in Historical Handwritten Documents
Estratto: Keyword spotting (KWS) in historical documents is an important tool for the initial exploration of digitized collections. Nowadays, the most efficient KWS methods are relying on machine learning techniques that require a large amount of annotated training data. However, in the case of historical manuscripts, there is a lack of annotated corpus for training. To handle the data scarcity issue, we investigate the merits of the self-supervised learning to extract useful representations of the input data without relying on human annotations and then using these representations in the downstream task. We propose ST-KeyS, a masked auto-encoder model based on vision transformers where the pretraining stage is based on the mask-and-predict paradigm, without the need of labeled data. In the fine-tuning stage, the pre-trained encoder is integrated into a siamese neural network model that is fine-tuned to improve feature embedding from the input images. We further improve the image representation using pyramidal histogram of characters (PHOC) embedding to create and exploit an intermediate representation of images based on text attributes. In an exhaustive experimental evaluation on three widely used benchmark datasets (Botany, Alvermann Konzilsprotokolle and George Washington), the proposed approach outperforms state-of-the-art methods trained on the same datasets.
Autori: Sana Khamekhem Jemni, Sourour Ammar, Mohamed Ali Souibgui, Yousri Kessentini, Abbas Cheddad
Ultimo aggiornamento: 2023-03-06 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2303.03127
Fonte PDF: https://arxiv.org/pdf/2303.03127
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.