Avanços no Reconhecimento de Caracteres Manuscritos em Hindi
Um estudo sobre como melhorar o reconhecimento de caracteres em Hindi a partir de entrada manuscrita.
― 7 min ler
Índice
O reconhecimento de caracteres escritos à mão é uma forma de transformar caracteres manuscritos em texto digital. Esse processo é especialmente importante para idiomas como o hindi, que usa uma escrita única chamada Devanagari. O objetivo desse trabalho é criar um sistema que consiga reconhecer caracteres em hindi escritos à mão usando uma tela sensível ao toque.
Importância das Características no Reconhecimento
As características são fundamentais para reconhecer caracteres. Elas são pontos de dados que capturam as qualidades essenciais das letras manuscritas. Se as características conseguirem captar as qualidades únicas de diferentes caracteres, o sistema de reconhecimento pode ter um desempenho melhor. Por exemplo, diferentes formas e estilos de um mesmo caractere ainda podem ser reconhecidos se as características forem robustas o suficiente.
Tipos de Características
Características de Ponto: Baseadas em pontos específicos nos traços do caractere. Incluem as posições onde a caneta toca a tela.
Características de Orientação: Capturam a direção em que um traço é feito. Diferentes traços podem ter ângulos e curvaturas diferentes.
Características Dinâmicas: Medem como a orientação do traço muda enquanto está sendo desenhado.
O Papel do Histograma
Um histograma é uma forma de representar dados visualmente. Neste contexto, Histogramas podem ser usados para mostrar quantos pontos, orientações e dinâmicas de traços estão presentes em um caractere. Dividindo o caractere em seções menores, podemos criar histogramas que refletem as distribuições dessas características.
Desafios no Reconhecimento
A escrita pode variar muito de uma pessoa para outra. Isso significa que duas pessoas podem escrever o mesmo caractere de maneiras bem diferentes. Essas variações podem dificultar a identificação correta do caractere pelo sistema.
Ordem dos Traços: Refere-se à sequência em que os traços são feitos. Diferentes pessoas podem desenhar o mesmo caractere em uma ordem diferente, o que pode causar confusão no sistema.
Direção do Traço: O ângulo e a direção em que um traço é desenhado podem variar muito entre os escritores. Isso também pode afetar o reconhecimento.
Variações na Escrita
Quando diferentes pessoas escrevem caracteres, elas podem introduzir variações que podem ser externas ou internas.
Variações Externas: Essas podem ser frequentemente eliminadas por meio de Pré-processamento. Por exemplo, se um caractere for muito grande, pode ser reduzido.
Variações Internas: Essas são mais difíceis de corrigir. Elas surgem de diferenças na maneira como cada um constrói sua escrita.
Pré-processamento de Amostras Manuscritas
Antes que o reconhecimento possa acontecer, o sistema deve pré-processar as amostras. Isso envolve limpar os dados para remover inconsistências.
Removendo Pontos Repetidos: Se um escritor levanta a caneta e depois a coloca de volta, mas no mesmo lugar, os pontos no caractere podem se repetir. Esses devem ser removidos, pois não oferecem informações úteis.
Mapeando Coordenadas: As coordenadas x e y dos traços são mapeadas para um intervalo padrão. Isso ajuda a padronizar caracteres que podem diferir em tamanho ou posição na tela.
Ajuste de Distância: O sistema ajusta a distância entre pontos em cada traço para torná-los uniformes. Isso ajuda a remover variações causadas por diferentes velocidades de escrita.
Filtrar Rugosidade: O traço do caractere pode parecer dentado ou áspero devido à maneira como é desenhado. Aplicar um filtro pode suavizar essas bordas ásperas.
O Conjunto de Dados de Caracteres
O conjunto de dados usado para esse sistema de reconhecimento consiste em amostras coletadas de várias fontes. Essas amostras incluem 96 caracteres diferentes em hindi e estão divididas em um conjunto de treinamento e um conjunto de teste.
Conjunto de Treinamento: Esse conjunto inclui 12.832 amostras. É usado para treinar o modelo de reconhecimento a entender como diferentes caracteres são formados.
Conjunto de Teste: Esse conjunto inclui 2.821 amostras. É usado para avaliar quão bem o modelo se sai após ser treinado.
Métodos de Extração de Características
Vários métodos podem ser usados para extrair características dos caracteres manuscritos. Esses métodos ajudam a identificar os atributos essenciais de cada caractere.
Características Espacial-Temporais
Essas características capturam a sequência de pontos nos traços ao longo do tempo. Elas podem refletir como um caractere é formado enquanto está sendo escrito. No entanto, podem ser influenciadas pela ordem e direção dos traços.
Transformada Discreta de Fourier (DFT)
Esse método transforma os dados do caractere em uma forma diferente, facilitando a análise dos componentes de frequência dos traços manuscritos. Assim como as características espaço-temporais, as características DFT também podem ser afetadas pela ordem e direção dos traços.
Transformada Discreta de Cosseno (DCT)
Semelhante à DFT, a DCT transforma os dados para focar em como diferentes partes do caractere se relacionam entre si. Novamente, isso é suscetível a variações na ordem e direção do traço.
Transformada Discreta de Wavelet (DWT)
A DWT é outro método que decompõe os dados do caractere para analisar tanto os componentes de alta quanto de baixa frequência. Como os métodos anteriores, os resultados podem mudar com base em como cada caractere é desenhado.
Características Espaciais
Características espaciais são obtidas mapeando o intervalo das coordenadas x e y sem focar na ordem ou direção dos traços. Isso ajuda a criar uma representação que é menos sensível a variações na escrita.
Histogramas de Gradientes Orientados (HOG)
Essas características focam nos gradientes na imagem do caractere. Elas calculam a direção da mudança de intensidade e ajudam a capturar a forma de maneira mais eficaz. Essas características também são independentes da direção e ordem dos traços.
Histogramas de Pontos, Orientações e Dinâmicas de Orientações (HPOD)
Esse novo método combina pontos, orientações e suas dinâmicas em histogramas que refletem efetivamente a composição do caractere. As características HPOD focam nos movimentos essenciais e mudanças de direção, tornando-as robustas a variações na escrita.
Máquinas de Vetores de Suporte (SVM)
As Máquinas de Vetores de Suporte são um método popular usado para tarefas de classificação, incluindo reconhecimento de escrita à mão. A SVM é eficaz, especialmente quando lidamos com um grande número de características.
Abordagem Um-contra-Um: Como há muitas classes (96 neste caso), a SVM usa uma abordagem um-contra-um para treinar múltiplos classificadores para os pares de classes de caracteres.
Boa Generalização: A SVM é conhecida por sua capacidade de generalizar bem, mesmo quando treinada em um conjunto de dados relativamente pequeno.
Avaliação de Desempenho
Uma vez que as características são extraídas, classificadores são treinados e testados para ver quão precisamente reconhecem os caracteres. A precisão do reconhecimento é medida para avaliar quão bem os diferentes métodos de extração de características funcionam.
Resultados
O estudo mostrou que as características HPOD superaram outros tipos de características. Os classificadores treinados com as características HPOD alcançaram uma impressionante taxa de precisão de 92,9%. Isso indica que as características HPOD podem capturar efetivamente informações essenciais para reconhecer caracteres em hindi quando escritos à mão.
Conclusão
O reconhecimento de caracteres manuscritos em hindi é uma tarefa complexa devido às variações nos estilos de escrita. Usando características distintas como HPOD, o sistema pode capturar efetivamente as principais características de cada caractere. Os passos de pré-processamento ajudam a padronizar os dados, enquanto os classificadores SVM treinados nessas características geram alta precisão no reconhecimento.
Essa pesquisa destaca a importância da seleção de características e como métodos inovadores podem aprimorar sistemas de reconhecimento de caracteres. Com a melhoria contínua desses métodos, os avanços futuros no reconhecimento de escrita podem levar a melhores aplicações em tecnologia que exigem compreensão de entradas manuscritas.
Título: Histograms of Points, Orientations, and Dynamics of Orientations Features for Hindi Online Handwritten Character Recognition
Resumo: A set of features independent of character stroke direction and order variations is proposed for online handwritten character recognition. A method is developed that maps features like co-ordinates of points, orientations of strokes at points, and dynamics of orientations of strokes at points spatially as a function of co-ordinate values of the points and computes histograms of these features from different regions in the spatial map. Different features like spatio-temporal, discrete Fourier transform, discrete cosine transform, discrete wavelet transform, spatial, and histograms of oriented gradients used in other studies for training classifiers for character recognition are considered. The classifier chosen for classification performance comparison, when trained with different features, is support vector machines (SVM). The character datasets used for training and testing the classifiers consist of online handwritten samples of 96 different Hindi characters. There are 12832 and 2821 samples in training and testing datasets, respectively. SVM classifiers trained with the proposed features has the highest classification accuracy of 92.9\% when compared to the performances of SVM classifiers trained with the other features and tested on the same testing dataset. Therefore, the proposed features have better character discriminative capability than the other features considered for comparison.
Autores: Anand Sharma, A. G. Ramakrishnan
Última atualização: 2023-09-05 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.02067
Fonte PDF: https://arxiv.org/pdf/2309.02067
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.