Nuovo dataset punta a migliorare il riconoscimento del testo russo
Un nuovo dataset supporta i progressi nel riconoscere il testo russo dalle immagini.
― 7 leggere min
Indice
Oggi le persone hanno accesso a un sacco di informazioni e il testo gioca un ruolo chiave nel nostro modo di comunicare. Per secoli, il testo è stato un modo importante per condividere idee, pensieri e messaggi. Tuttavia, leggere il testo nelle immagini, specialmente nelle situazioni quotidiane, può essere ancora piuttosto complicato. Un problema principale è che non ci sono abbastanza esempi o dati per addestrare i computer a farlo bene.
Per funzionare bene, un set di addestramento usato da un sistema di deep learning deve avere molti esempi che assomigliano a situazioni reali. Anche se ci sono molti buoni esempi per il Riconoscimento del testo in inglese, gli esempi per la lingua russa sono piuttosto limitati. Questo articolo presenta una nuova, grande collezione di immagini etichettate di testo russo prese dalla vita reale e una collezione sintetica progettata per migliorare il riconoscimento.
La Necessità di un Dataset
Leggere il testo in foto o video ha molti usi pratici. Ad esempio, può aiutare a leggere i numeri dei contatori dell'acqua, assistere nelle ricerche di immagini, guidare i robot, supportare i sistemi di trasporto, aiutare con traduzioni interattive e assistere le persone con disabilità visive. Affinché queste attività funzionino in modo efficace, i sistemi devono essere addestrati su una vasta gamma di dati testuali.
Attualmente, ci sono molti dataset disponibili per il riconoscimento del testo in inglese. Questi dataset sono essenziali per addestrare modelli che riconoscono e comprendono il testo in varie situazioni. Tuttavia, non c'è stato uno sforzo simile per la lingua russa, rendendo più difficile costruire sistemi efficaci per questo scopo.
Sfide nel Riconoscimento
Riconoscere il testo negli ambienti reali non è semplice. Una delle principali sfide deriva dalla natura delle scene quotidiane. Il testo può essere difficile da individuare a causa di oggetti concorrenti nell'immagine. Inoltre, gli sfondi possono variare molto nel colore. Il testo può essere curvato, piegato o assumere altre forme, e una cattiva illuminazione può rendere difficile la lettura del testo.
Il problema principale per i sistemi di deep learning è ancora la mancanza di dati di addestramento sufficienti. Per una performance coerente, i set di addestramento devono riflettere una vasta gamma di situazioni del mondo reale. Poiché non esistono dataset di alta qualità per la lingua russa, i progressi in questo campo sono rimasti indietro.
Introduzione al Nuovo Dataset
Il nuovo dataset presentato qui consiste in una raccolta di immagini del mondo reale con testo russo etichettato da esseri umani, insieme a un dataset Sintetico. Il dataset del mondo reale contiene oltre 13.000 immagini, ciascuna con annotazioni che includono riquadri e stringhe di testo.
In questo dataset, i riquadri non sono strettamente adattati attorno al testo, permettendo di includere un po' di sfondo. Le annotazioni coprono numeri e segni di punteggiatura comuni, mentre altri caratteri speciali non sono inclusi. Sia le lettere cirilliche che quelle latine sono annotate, e ci sono riquadri separati per il testo verticale. Il testo molto piccolo o poco chiaro è stato escluso.
Dataset di Testo Esistenti
I dataset sono fondamentali per lo sviluppo di sistemi di intelligenza artificiale. Forniscono il materiale necessario per addestrare modelli accurati. Numerosi dataset disponibili pubblicamente aiutano nel campo del riconoscimento del testo. Ad esempio, il dataset Street View House Numbers (SVHN) contiene immagini di numeri civici da Google Street View.
Un altro dataset ben noto è il Char dataset, che contiene oltre 7.000 caratteri da immagini naturali. Il dataset SCUT-CTW1500 ha 1.500 immagini di testo raccolte manualmente da internet, mentre il dataset Total-Text include oltre 1.500 immagini con una vasta gamma di orientamenti del testo.
Il dataset DOST contiene 30.000 frame video per il riconoscimento del testo. Il dataset COCO-Text, basato sul dataset MS COCO, ha regioni di testo etichettate in oltre 63.000 immagini. Ci sono anche dataset come Uber-Text e HierText che si concentrano su diversi aspetti della rilevazione del testo.
Anche se ci sono molti dataset per varie lingue, c'è stata poca attenzione ai testi russi. I dataset esistenti coprono principalmente l'inglese e alcune lingue asiatiche.
Dataset Sintetici
Quando non ci sono dataset adatti disponibili, un'opzione è creare dataset sintetici. Raccogliere e annotare dataset reali può richiedere molto tempo e denaro. Pertanto, generare un dataset può essere a volte più pratico.
Esistono molti dataset sintetici per vari compiti di visione artificiale, incluso il riconoscimento del testo. Ad esempio, il dataset UnrealText ha 600.000 immagini sintetiche con testo aggiunto a superfici modellate. Ci sono anche altri dataset sintetici come Synth90k e SynthText, che hanno milioni di ritagli a livello di parola.
Tuttavia, nessuno di questi dataset supporta la lingua russa, rendendo difficile trovare materiale di addestramento adeguato per modelli focalizzati su di essa.
Dataset di Testo Reale e Sintetici
In questo lavoro, offriamo sia un dataset annotato del mondo reale che un dataset sintetico per il riconoscimento del testo russo. Il dataset del mondo reale ha oltre 13.000 immagini con annotazioni a livello di paragrafo. Ogni Annotazione presenta un riquadro attorno al testo e una singola stringa.
Per creare il dataset sintetico, abbiamo adattato un pipeline di generazione esistente per migliorare la flessibilità e il realismo. Prima, rileviamo il testo esistente nelle immagini usando un modello che identifica il testo a livello di carattere. Se troviamo del testo, lo rimuoviamo o lo sfociamo prima di aggiungere nuovo testo.
Quando inseriamo nuovo testo, cerchiamo di posizionarlo in aree che siano visivamente adatte. Analizziamo l'immagine per trovare regioni uniformi che non contrastino con il contenuto esistente. Viene applicata anche una stima della profondità, permettendo al nuovo testo di apparire naturalmente all'interno della scena.
Diversità nel Dataset
Le immagini di sfondo utilizzate nel nostro dataset provengono da altri grandi dataset, ma le filtriamo ampiamente per rimuovere contenuti indesiderati, come volti o testo esistente. Il dataset risultante presenta 96 diversi caratteri tipografici su 40 famiglie di caratteri.
Il nostro testo di addestramento proviene da un elenco delle parole russe più comuni, escludendo linguaggio offensivo. Creiamo anche sequenze di numeri casuali e includiamo cognomi comuni per diversificare ulteriormente il dataset.
Ci assicuriamo che il campionamento delle parole sia uniforme, il che aiuta ad addestrare i modelli in modo efficace. Il dataset finale è ampio e diversificato, rendendolo adatto a una gamma di applicazioni.
Esempi Generati
Utilizzando le mappe di segmentazione, possiamo aggiungere informazioni spaziali che aiutano a posizionare il testo con precisione nelle immagini. Quando generiamo nuovi esempi, teniamo conto del testo esistente e usiamo la sfocatura per creare spazio per il testo sintetico.
Con l'aggiunta di caratteristiche di profondità, il testo sintetico può mescolarsi perfettamente in un'immagine. Applichiamo anche varie trasformazioni per far sì che il testo si integri naturalmente in diversi tipi di sfondi.
Il nostro approccio offre diversi tipi di etichette per il testo generato, consentendo flessibilità per varie esigenze di addestramento. Sono disponibili etichette sia a livello di paragrafo che a livello di carattere, offrendo un dataset più completo per scopi di addestramento.
Conclusione
Abbiamo creato con successo un dataset su larga scala per riconoscere il testo russo in situazioni reali, combinando oltre 14.000 immagini reali e più di 900.000 immagini sintetiche. Questa nuova risorsa è progettata per aiutare a migliorare i modelli di riconoscimento del testo esistenti e servire come punto di riferimento per studi futuri. Fornendo sia il dataset che gli strumenti necessari per riprodurre il nostro lavoro, miriamo a supportare il progresso nel campo della visione artificiale, specificamente per i compiti di riconoscimento del testo.
Titolo: RusTitW: Russian Language Text Dataset for Visual Text in-the-Wild Recognition
Estratto: Information surrounds people in modern life. Text is a very efficient type of information that people use for communication for centuries. However, automated text-in-the-wild recognition remains a challenging problem. The major limitation for a DL system is the lack of training data. For the competitive performance, training set must contain many samples that replicate the real-world cases. While there are many high-quality datasets for English text recognition; there are no available datasets for Russian language. In this paper, we present a large-scale human-labeled dataset for Russian text recognition in-the-wild. We also publish a synthetic dataset and code to reproduce the generation process
Autori: Igor Markov, Sergey Nesteruk, Andrey Kuznetsov, Denis Dimitrov
Ultimo aggiornamento: 2023-03-29 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2303.16531
Fonte PDF: https://arxiv.org/pdf/2303.16531
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.michaelshell.org/
- https://www.michaelshell.org/tex/ieeetran/
- https://www.ctan.org/pkg/ieeetran
- https://www.ieee.org/
- https://www.latex-project.org/
- https://www.michaelshell.org/tex/testflow/
- https://www.ctan.org/pkg/ifpdf
- https://www.ctan.org/pkg/cite
- https://www.ctan.org/pkg/graphicx
- https://www.ctan.org/pkg/epslatex
- https://www.tug.org/applications/pdftex
- https://www.ctan.org/pkg/amsmath
- https://www.ctan.org/pkg/algorithms
- https://www.ctan.org/pkg/algorithmicx
- https://www.ctan.org/pkg/array
- https://www.ctan.org/pkg/subfig
- https://www.ctan.org/pkg/fixltx2e
- https://www.ctan.org/pkg/stfloats
- https://www.ctan.org/pkg/dblfloatfix
- https://www.ctan.org/pkg/endfloat
- https://www.ctan.org/pkg/url
- https://www.michaelshell.org/contact.html
- https://mirror.ctan.org/biblio/bibtex/contrib/doc/
- https://www.michaelshell.org/tex/ieeetran/bibtex/