Novo conjunto de dados busca melhorar o reconhecimento de texto em russo
Um novo conjunto de dados ajuda a aprimorar o reconhecimento de texto russo em imagens.
― 7 min ler
Índice
- A Necessidade de um Conjunto de Dados
- Desafios no Reconhecimento
- Apresentando o Novo Conjunto de Dados
- Conjuntos de Dados de Texto Existentes
- Conjuntos de Dados Sintéticos
- Conjuntos de Dados de Texto Reais e Sintéticos
- Diversidade no Conjunto de Dados
- Exemplos Gerados
- Conclusão
- Fonte original
- Ligações de referência
Hoje em dia, as pessoas têm acesso a muita informação, e o texto é fundamental na nossa comunicação. Por séculos, o texto foi uma forma importante de compartilhar ideias, pensamentos e mensagens. No entanto, ler texto em fotos, especialmente em situações do dia a dia, ainda pode ser bem complicado. Um dos principais problemas é que não há exemplos ou dados suficientes para treinar computadores para fazer isso bem.
Para ter um bom desempenho, um conjunto de treinamento usado por um sistema de aprendizado profundo precisa ter muitos exemplos que se pareçam com situações da vida real. Enquanto existem muitos bons exemplos para o Reconhecimento de texto em inglês, os exemplos para o idioma russo são bem limitados. Este artigo apresenta uma nova coleção grande de imagens rotuladas de texto russo tiradas da vida real e uma coleção sintética projetada para ajudar a melhorar o reconhecimento.
A Necessidade de um Conjunto de Dados
Ler texto em fotos ou vídeos tem várias aplicações práticas. Por exemplo, pode ajudar a ler números de medidores de água, auxiliar em buscas de imagens, guiar robôs, apoiar sistemas de transporte, ajudar com traduções interativas e auxiliar pessoas com deficiências visuais. Para que essas tarefas funcionem de forma eficaz, os sistemas precisam ser treinados com uma ampla variedade de dados textuais.
Atualmente, existem muitos Conjuntos de dados disponíveis para o reconhecimento de texto em inglês. Esses conjuntos são essenciais para treinar modelos que reconhecem e entendem texto em várias situações. No entanto, não houve um esforço semelhante para o idioma russo, tornando mais difícil construir sistemas eficazes para esse propósito.
Desafios no Reconhecimento
Reconhecer texto em ambientes do mundo real não é simples. Um dos principais desafios vem da natureza das cenas do dia a dia. O texto pode ser difícil de encontrar por causa de objetos que competem na imagem. Além disso, os fundos podem variar muito em cor. O texto pode ser curvado, torto ou ter outras formas, e uma iluminação ruim pode dificultar a leitura.
O principal problema para sistemas de aprendizado profundo ainda é a falta de dados de treinamento suficientes. Para um desempenho consistente, os conjuntos de treinamento precisam refletir uma ampla gama de situações da vida real. Como não existem conjuntos de dados de alta qualidade para o idioma russo, o progresso nessa área ficou para trás.
Apresentando o Novo Conjunto de Dados
O novo conjunto de dados apresentado aqui consiste em uma coleção da vida real de imagens com texto russo rotulado por humanos, junto com um conjunto sintético. O conjunto de dados do mundo real contém mais de 13.000 imagens, cada uma com anotações que incluem caixas delimitadoras e strings de texto.
Neste conjunto de dados, as caixas delimitadoras não estão ajustadas de forma rígida ao texto, permitindo incluir um pouco do fundo. As anotações cobrem dígitos e sinais de pontuação comuns, enquanto outros caracteres especiais não estão incluídos. Letras cirílicas e latinas estão anotadas, e há caixas delimitadoras separadas para texto vertical. Texto muito pequeno ou pouco claro foi deixado de fora.
Conjuntos de Dados de Texto Existentes
Conjuntos de dados são vitais para o desenvolvimento de sistemas de IA. Eles fornecem o material necessário para treinar modelos precisos. Vários conjuntos de dados disponíveis publicamente ajudam no campo do reconhecimento de texto. Por exemplo, o conjunto de dados Street View House Numbers (SVHN) contém imagens de números de casas do Google Street View.
Outro conjunto de dados bem conhecido é o Char dataset, que contém mais de 7.000 caracteres de imagens naturais. O conjunto SCUT-CTW1500 tem 1.500 imagens de texto coletadas manualmente da internet, enquanto o Total-Text inclui mais de 1.500 imagens com uma ampla gama de orientações de texto.
O conjunto de dados DOST contém 30.000 quadros de vídeo para reconhecimento de texto. O conjunto COCO-Text, baseado no conjunto de dados MS COCO, tem regiões de texto rotuladas em mais de 63.000 imagens. Há também conjuntos de dados como Uber-Text e HierText que se concentram em diferentes aspectos da detecção de texto.
Embora existam muitos conjuntos de dados para várias línguas, houve pouco foco em textos russos. Os conjuntos de dados existentes cobrem principalmente inglês e algumas línguas asiáticas.
Conjuntos de Dados Sintéticos
Quando não há conjuntos de dados adequados disponíveis, uma opção é criar conjuntos de dados sintéticos. Coletar e rotular conjuntos de dados reais pode levar muito tempo e dinheiro. Portanto, gerar um conjunto de dados pode ser mais prático às vezes.
Existem muitos conjuntos de dados sintéticos para várias tarefas de visão computacional, incluindo reconhecimento de texto. Por exemplo, o conjunto UnrealText tem 600.000 imagens sintéticas com texto adicionado a superfícies modeladas. Também existem outros conjuntos de dados sintéticos, como Synth90k e SynthText, que têm milhões de recortes em nível de palavra.
No entanto, nenhum desses conjuntos de dados suporta o idioma russo, tornando difícil encontrar material de treinamento adequado para modelos focados nisso.
Conjuntos de Dados de Texto Reais e Sintéticos
Neste trabalho, estamos oferecendo um conjunto de dados anotado da vida real e um conjunto sintético para reconhecimento de texto russo. O conjunto de dados do mundo real tem mais de 13.000 imagens com anotações em nível de parágrafo. Cada Anotação apresenta uma caixa delimitadora em torno do texto e uma única string.
Para criar o conjunto sintético, adaptamos um pipeline de geração existente para melhorar a flexibilidade e o realismo. Primeiro, detectamos qualquer texto existente nas imagens usando um modelo que identifica texto em nível de caractere. Se encontrarmos texto, removemos ou desfocamos antes de adicionar novo texto.
Ao inserir novo texto, buscamos colocá-lo em áreas visualmente adequadas. Analisamos a imagem para encontrar regiões uniformes que não conflitem com o conteúdo existente. A estimativa de profundidade também é aplicada, permitindo que o novo texto apareça naturalmente na cena.
Diversidade no Conjunto de Dados
As imagens de fundo usadas em nosso conjunto de dados são retiradas de outros grandes conjuntos, mas filtramos extensivamente para remover qualquer conteúdo indesejado, como rostos ou texto existente. O conjunto resultante apresenta 96 fontes diferentes de 40 famílias de fontes.
Nosso texto de treinamento vem de uma lista das palavras russas mais comuns, excluindo qualquer linguagem ofensiva. Também criamos sequências de números aleatórios e incluímos sobrenomes comuns para diversificar ainda mais o conjunto.
Garantimos que a amostragem de palavras seja uniforme, o que ajuda a treinar modelos de forma eficaz. O conjunto final é amplo e diversificado, tornando-se adequado para uma variedade de aplicações.
Exemplos Gerados
Usando mapas de segmentação, podemos adicionar informações espaciais que ajudam a colocar o texto com precisão nas imagens. Ao gerar novos exemplos, levamos em conta o texto existente e usamos desfocagem para criar espaço para o texto sintético.
Com a adição de características de profundidade, o texto sintético pode se misturar perfeitamente a uma imagem. Também aplicamos várias transformações para fazer o texto se encaixar naturalmente em diferentes tipos de fundos.
Nossa abordagem fornece diferentes tipos de rótulos para o texto gerado, permitindo flexibilidade para várias necessidades de treinamento. Rótulos em nível de parágrafo e em nível de caractere estão disponíveis, oferecendo um conjunto de dados mais abrangente para fins de treinamento.
Conclusão
Criamos com sucesso um conjunto de dados em larga escala para reconhecer texto russo em situações do mundo real, combinando mais de 14.000 imagens reais e mais de 900.000 imagens sintéticas. Este novo recurso é projetado para ajudar a melhorar modelos de reconhecimento de texto existentes e servir como um benchmark para estudos futuros. Ao fornecer tanto o conjunto de dados quanto as ferramentas necessárias para reproduzir nosso trabalho, queremos apoiar o progresso no campo da visão computacional, especificamente para tarefas de reconhecimento de texto.
Título: RusTitW: Russian Language Text Dataset for Visual Text in-the-Wild Recognition
Resumo: Information surrounds people in modern life. Text is a very efficient type of information that people use for communication for centuries. However, automated text-in-the-wild recognition remains a challenging problem. The major limitation for a DL system is the lack of training data. For the competitive performance, training set must contain many samples that replicate the real-world cases. While there are many high-quality datasets for English text recognition; there are no available datasets for Russian language. In this paper, we present a large-scale human-labeled dataset for Russian text recognition in-the-wild. We also publish a synthetic dataset and code to reproduce the generation process
Autores: Igor Markov, Sergey Nesteruk, Andrey Kuznetsov, Denis Dimitrov
Última atualização: 2023-03-29 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2303.16531
Fonte PDF: https://arxiv.org/pdf/2303.16531
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.michaelshell.org/
- https://www.michaelshell.org/tex/ieeetran/
- https://www.ctan.org/pkg/ieeetran
- https://www.ieee.org/
- https://www.latex-project.org/
- https://www.michaelshell.org/tex/testflow/
- https://www.ctan.org/pkg/ifpdf
- https://www.ctan.org/pkg/cite
- https://www.ctan.org/pkg/graphicx
- https://www.ctan.org/pkg/epslatex
- https://www.tug.org/applications/pdftex
- https://www.ctan.org/pkg/amsmath
- https://www.ctan.org/pkg/algorithms
- https://www.ctan.org/pkg/algorithmicx
- https://www.ctan.org/pkg/array
- https://www.ctan.org/pkg/subfig
- https://www.ctan.org/pkg/fixltx2e
- https://www.ctan.org/pkg/stfloats
- https://www.ctan.org/pkg/dblfloatfix
- https://www.ctan.org/pkg/endfloat
- https://www.ctan.org/pkg/url
- https://www.michaelshell.org/contact.html
- https://mirror.ctan.org/biblio/bibtex/contrib/doc/
- https://www.michaelshell.org/tex/ieeetran/bibtex/