Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Desafios no Reconhecimento de Corredores Off-Road

Novos conjuntos de dados mostram as dificuldades de identificar corredores e textos em condições de lama.

― 7 min ler


Problemas deProblemas deReconhecimento emCorridas Off-Roadidentificar pilotos e texto.Conjuntos de dados mostram desafios em
Índice

Reconhecer texto e pessoas em fotos tiradas em situações reais é bem complicado. Mesmo com a tecnologia de leitura de texto em imagens e reconhecimento de indivíduos tendo melhorado muito, ainda tem muitos desafios. Por exemplo, identificar os pilotos em fotos de competições off-road pode ser difícil por causa de várias coisas, como lama, poses estranhas e imagens embaçadas.

Pra ajudar com isso, foram criados dois novos conjuntos de dados a partir de corridas de motocicleta off-road. Esses conjuntos têm o objetivo de mostrar os limites da tecnologia atual e incentivar o progresso no Reconhecimento de Texto e Identificação de Pessoas em condições difíceis.

Os Conjuntos de Dados

O primeiro conjunto se chama Conjunto de Dados de Números de Pilotos de Motocicleta Off-Road (RND). Ele inclui mais de 2.400 imagens de pilotos durante as corridas, com os números dos pilotos visíveis nas fotos. No total, são mais de 5.500 números de pilotos diferentes. Essas imagens apresentam vários desafios, como lama cobrindo os números, ângulos de câmera estranhos e imagens de baixa qualidade.

O segundo conjunto é o Conjunto de Dados de Reidentificação de Pilotos Lamacentos (MUDD). Ele tem quase 4.000 imagens, capturando 150 pilotos diferentes em dez eventos off-road distintos. Cada imagem é rotulada com a identidade do piloto, e essas imagens também enfrentam problemas como lama, iluminação variável e poses diferentes.

Ambos os conjuntos foram coletados de um site que apresenta fotos de fotógrafos profissionais de motorsport. Eles oferecem uma grande variedade de condições que desafiam os métodos atuais de reconhecimento de imagem.

Desafios no Reconhecimento

Os métodos atuais têm dificuldades em reconhecer texto e imagens em ambientes difíceis. Por exemplo, a tecnologia padrão pode ler texto em documentos com muita precisão, mas pode falhar ao lidar com texto em cenas bagunçadas ou quando o texto está parcialmente escondido pela lama ou outros elementos. Da mesma forma, a identificação de pessoas nas imagens sofre quando elas não estão claramente visíveis, como durante uma corrida, quando indivíduos podem estar obscurecidos ou em poses inusitadas.

Vários fatores afetam a precisão do reconhecimento, como condições de iluminação, ângulos das fotografias e a presença de lama. A lama pode criar padrões únicos de Obstrução que os modelos padrão não foram treinados para lidar.

Benchmarking de Modelos

Testes iniciais nos conjuntos de dados usando modelos avançados atuais mostraram que eles tiveram um desempenho ruim em ambas as tarefas - reconhecendo texto e identificando pessoas. Para reconhecimento de texto, modelos comuns alcançaram uma precisão média de apenas cerca de 15%, enquanto a identificação de pessoas chegou a cerca de 33%. Isso indica um grande hiato entre o treinamento em conjuntos de dados típicos e as condições do mundo real.

Quando os mesmos modelos foram ajustados para se adequar melhor às especificidades desses conjuntos, o desempenho melhorou, mas ainda foi inadequado. Após o ajuste fino, os melhores modelos conseguiram cerca de 53% de precisão no reconhecimento de texto e cerca de 79% na identificação de pilotos. No entanto, isso ainda revela que há muitas áreas para melhorar.

Observações dos Conjuntos de Dados

Os conjuntos de dados destacam alguns problemas comuns que dificultam o desempenho em ambientes reais.

  1. Obstrução por Lama: O maior desafio é a lama pesada, que obscurece os pilotos e seus números. A lama pode cobrir detalhes importantes, dificultando o reconhecimento dos números que estão parcialmente ou totalmente escondidos.

  2. Poses Variadas: Os pilotos adotam muitas posições diferentes durante as corridas, como saltos ou quedas. Essas poses não são normalmente encontradas em conjuntos de dados padrão, o que dificulta a identificação precisa pelos modelos.

  3. Iluminação e Resolução: A iluminação durante uma corrida pode variar bastante, levando a reflexos ou sombras que confundem os modelos de reconhecimento. Muitas imagens também são tiradas de longe, resultando em baixa resolução que diminui a qualidade dos detalhes.

  4. Fundos Complexos: As corridas podem envolver vários pilotos em uma única imagem, dificultando o foco em números individuais. Os fundos bagunçados aumentam a complexidade.

  5. Condições Dinâmicas: O comportamento dos pilotos pode mudar ao longo da corrida, afetando como eles aparecem em diferentes imagens. Isso exige que os modelos se adaptem a várias aparências para o mesmo indivíduo.

Resultados dos Modelos de Reconhecimento de Texto

A tarefa de reconhecimento de texto avaliou dois modelos avançados: YAMTS e SwinTS. Ambos os modelos foram testados primeiro com suas configurações originais e depois ajustados para as necessidades específicas dos conjuntos de dados. As versões ajustadas mostraram uma melhoria significativa, com pontuações de detecção alcançando a casa dos 70 para as pontuações F1.

O desempenho variou de acordo com as condições presentes nas imagens. Por exemplo, quando os números eram obstruídos pela lama, os modelos tinham dificuldades para identificá-los corretamente. No entanto, eles se saíram melhor quando as imagens estavam claras. Isso indica que as habilidades de reconhecimento podem ser muito afetadas pelo ambiente em que as imagens foram tiradas.

Resultados dos Modelos de Identificação de Pessoas

Da mesma forma, a tarefa de identificação de pessoas revelou que modelos pré-treinados tiveram um desempenho ruim quando aplicados diretamente aos novos conjuntos de dados. As pontuações de precisão mais altas ainda estavam abaixo de 35%.

Ajustar esses modelos para o novo ambiente melhorou os resultados, com os melhores modelos alcançando uma taxa de precisão de mais de 79%. É claro que adaptar modelos às especificidades do seu ambiente é crucial para aplicações do mundo real.

Análise Qualitativa do Desempenho do Modelo

Uma análise detalhada de como os modelos se saíram destacou tanto seus pontos fortes quanto suas fraquezas.

Em cenários onde havia pouca obstrução, os modelos conseguiam detectar e identificar os pilotos com precisão. No entanto, em condições desafiadoras como lama pesada ou quando lidavam com fundos complexos, os modelos não se saíram bem.

Alguns dos desafios incluíram:

  • Detectar números menores em capacetes, que muitas vezes foram ignorados por causa da lama.
  • Reconhecer números que estavam em posições estranhas, o que levou a identificações erradas.
  • Números sobrepostos que confundiram os modelos, levando a leituras incorretas.

Essas observações indicam que, embora melhorias tenham sido feitas, desafios substanciais permanecem, especialmente em condições lamacentas ou caóticas.

Conclusão

Em resumo, os conjuntos de dados criados a partir de corridas de motocicleta off-road representam um avanço significativo na compreensão de como as tecnologias atuais lutam com aplicações reais. Os desafios apresentados por esses conjuntos revelam onde mais pesquisas e desenvolvimentos são necessários.

À medida que a tecnologia continua a evoluir, há uma grande oportunidade de melhorias no reconhecimento de texto e identificação de pessoas em circunstâncias difíceis. Aprendendo com as deficiências destacadas nesta pesquisa, desenvolvimentos futuros podem levar a soluções melhores que abordem esses obstáculos de forma eficaz.

No geral, esses esforços não só beneficiarão a análise esportiva, mas também podem ter aplicações mais amplas em áreas que exigem capacidades robustas de reconhecimento em ambientes variados.

A introdução desses conjuntos de dados serve como um passo crucial para motivar mais avanços na área, abrindo caminho para inovações que aprimoram a capacidade de interpretar imagens complexas encontradas em configurações do mundo real.

Fonte original

Título: Beyond the Mud: Datasets and Benchmarks for Computer Vision in Off-Road Racing

Resumo: Despite significant progress in optical character recognition (OCR) and computer vision systems, robustly recognizing text and identifying people in images taken in unconstrained \emph{in-the-wild} environments remain an ongoing challenge. However, such obstacles must be overcome in practical applications of vision systems, such as identifying racers in photos taken during off-road racing events. To this end, we introduce two new challenging real-world datasets - the off-road motorcycle Racer Number Dataset (RND) and the Muddy Racer re-iDentification Dataset (MUDD) - to highlight the shortcomings of current methods and drive advances in OCR and person re-identification (ReID) under extreme conditions. These two datasets feature over 6,300 images taken during off-road competitions which exhibit a variety of factors that undermine even modern vision systems, namely mud, complex poses, and motion blur. We establish benchmark performance on both datasets using state-of-the-art models. Off-the-shelf models transfer poorly, reaching only 15% end-to-end (E2E) F1 score on text spotting, and 33% rank-1 accuracy on ReID. Fine-tuning yields major improvements, bringing model performance to 53% F1 score for E2E text spotting and 79% rank-1 accuracy on ReID, but still falls short of good performance. Our analysis exposes open problems in real-world OCR and ReID that necessitate domain-targeted techniques. With these datasets and analysis of model limitations, we aim to foster innovations in handling real-world conditions like mud and complex poses to drive progress in robust computer vision. All data was sourced from PerformancePhoto.co, a website used by professional motorsports photographers, racers, and fans. The top-performing text spotting and ReID models are deployed on this platform to power real-time race photo search.

Autores: Jacob Tyo, Motolani Olarinre, Youngseog Chung, Zachary C. Lipton

Última atualização: 2024-02-12 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2402.08025

Fonte PDF: https://arxiv.org/pdf/2402.08025

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes