Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

ReBound: Uma Ferramenta Prática para Rotulagem 3D em Carros Autônomos

O ReBound facilita a rotulagem em 3D pra melhorar a detecção de objetos em carros autônomos.

― 7 min ler


ReBound Revoluciona aReBound Revoluciona aRotulagem 3Dobjetos.aumenta a precisão da detecção deFerramenta de rotulagem 3D eficiente
Índice

Nos últimos anos, treinar computadores pra reconhecer objetos em ambientes 3D virou essencial, principalmente pra carros autônomos. Esses carros precisam ver e entender o que tá ao seu redor pra dirigir com segurança. Os pesquisadores estudam como ensinar esses carros a detectar coisas como outros veículos, pedestres e sinais de trânsito usando conjuntos grandes de exemplos, conhecidos como datasets. Alguns datasets famosos usados pra isso são o nuScenes e o Argoverse 2.0. Porém, esses datasets costumam ter rótulos faltando ou incorretos. Isso significa que alguns objetos nas imagens ou digitalizações podem não estar marcados corretamente, o que pode criar desafios pra ensinar o carro a ver com precisão.

O Problema com os Datasets Existentes

A maioria das vezes, quando olhamos pra uma cena usando LiDAR (que mede distâncias com luz), ou câmeras, tem muitos objetos ao redor. Esses objetos precisam ser rotulados corretamente pra treinar o sistema de detecção efetivamente. Infelizmente, em alguns datasets, objetos que estão longe podem não estar rotulados de forma precisa. Por exemplo, no dataset nuScenes, qualquer coisa além de 50 metros pode não ser rotulada de maneira consistente. Isso pode causar problemas quando queremos que o carro reconheça coisas distantes, como sinais de rua ou semáforos, que são importantes pra dirigir com segurança.

Consertar esses rótulos manualmente não é fácil. Quando usamos imagens 2D, é difícil saber exatamente quão longe algo tá, enquanto usar Nuvens de Pontos 3D do LiDAR pode ser complicado já que os dados podem ser escassos. Isso torna difícil identificar objetos, especialmente aqueles que estão mais longe ou escondidos entre muitos outros.

Existem serviços que podem ajudar com essa rotulagem, mas eles podem ser muito caros. Como resultado, várias ferramentas foram criadas pra facilitar a rotulagem rápida e fácil, mas geralmente não suportam muitos formatos de dados diferentes. Além disso, pode ser que não permitam uma análise mais profunda ou aprendizagem ativa, onde o sistema aprende com seus erros e melhora com o tempo.

Apresentando o ReBound

Pra enfrentar esses problemas, criamos o ReBound, uma ferramenta gratuita projetada pra rotulagem 3D. Essa ferramenta permite que os usuários adicionem, mudem ou excluam rótulos em datasets existentes ou a partir de previsões feitas por modelos de computador. Com o ReBound, os usuários podem modificar os rótulos pra se adequar melhor às suas necessidades, especialmente pra fins de aprendizado.

O ReBound suporta diferentes datasets, incluindo nuScenes, Waymo e Argoverse 2.0. Ele pode converter os formatos específicos que esses datasets usam em um formato geral que pode ser facilmente gerenciado e entendido. Assim, os usuários podem trabalhar com diferentes tipos de dados sem se preocupar com problemas de formatação.

Como o ReBound Funciona

O ReBound inclui várias funcionalidades que facilitam a rotulagem e visualização de dados 3D. A ferramenta tem três seções principais: uma janela de controle, um visualizador de nuvem de pontos e um visualizador de imagem RGB. A janela de controle permite que os usuários naveguem entre diferentes quadros de dados, enquanto o visualizador de nuvem de pontos exibe os dados 3D e quaisquer anotações. Os usuários podem dar zoom in, zoom out e girar a visão pra ver os objetos de diferentes ângulos.

Quando usam o ReBound, os usuários podem clicar diretamente em pontos na visualização 3D pra adicionar novos rótulos, editar os existentes ou excluir rótulos que não são mais necessários. Pra fazer essas mudanças, os usuários podem simplesmente selecionar uma caixa 3D representando um objeto e ajustar sua localização, tamanho e orientação pela janela de controle. Essas mudanças são refletidas instantaneamente nas janelas de visualização, tornando claro quais ajustes foram feitos.

A ferramenta permite dois tipos de movimento: mudanças horizontais, que permitem que os usuários movam objetos pra esquerda ou direita, e mudanças verticais, que permitem ajustar a altura ou orientação. Assim, os usuários podem fazer ajustes precisos ou criar novos rótulos com apenas um clique.

O ReBound não só simplifica o processo de rotulagem, mas também permite que os usuários analisem a qualidade das previsões feitas por modelos. Os usuários podem ver quais objetos detectados podem precisar de correção com base em quão precisas são as previsões do modelo, tornando o processo de aprendizado mais suave e eficaz.

Apoio à Aprendizagem Ativa

Uma das grandes vantagens do ReBound é como ele apoia a aprendizagem ativa. A aprendizagem ativa é uma forma de melhorar o desempenho do modelo focando nos exemplos mais importantes. Em vez de rotular cada imagem ou digitalização, essa abordagem permite que os pesquisadores rotulem apenas os dados mais informativos. Focando nos dados que o modelo tem dúvidas, os usuários podem melhorar rapidamente a precisão do sistema.

O ReBound ajuda nesse processo permitindo que os usuários filtrem previsões com base em quão confiantes os modelos estão sobre seus rótulos. Isso facilita pro pesquisadores focarem seus esforços onde mais precisam, garantindo que o processo de aprendizado seja eficiente e eficaz.

Experiência do Usuário

Pra avaliar quão fácil o ReBound é de usar, fizemos pesquisas com vários participantes. Pedimos que eles realizassem várias tarefas com a ferramenta após assistirem a uma demonstração. O feedback destacou áreas onde os usuários acharam a ferramenta intuitiva, assim como desafios que enfrentaram.

Muitos participantes acharam que criar, modificar e excluir rótulos era simples. Porém, eles também indicaram que girar e traduzir caixas 3D era mais desafiador e poderia exigir alguma prática, especialmente pra quem tinha pouca experiência com ferramentas 3D.

Vários participantes mencionaram que a ferramenta poderia ser útil pra pesquisadores que trabalham com tecnologia de carros autônomos. Poder ajustar rótulos facilmente foi visto como um recurso importante que poderia ajudar a melhorar a precisão dos sistemas de detecção de objetos.

Visualizando Anotações

Usando o ReBound, os usuários podem visualizar quão bem os rótulos combinam com os objetos reais no ambiente. Isso é crucial, já que uma rotulagem ruim pode levar a modelos menos precisos. Por exemplo, se a posição de um carro rotulado não coincidir com onde o carro realmente tá, isso pode confundir o modelo.

Com o ReBound, os usuários podem facilmente perceber quando uma anotação tá desalinhada e corrigi-la. Por exemplo, se um rótulo de um veículo estiver colocado incorretamente, os usuários podem ajustá-lo até que ele reflita corretamente a posição do carro real. Isso garante que os modelos treinem com dados de alta qualidade, o que no final resulta em um desempenho melhor.

Conclusão

A comunidade acadêmica tá sempre avançando no campo da detecção de objetos. No entanto, os datasets usados pra treinar carros autônomos costumam ter limitações, especialmente em relação aos rótulos. O ReBound oferece uma solução de código aberto pra ajudar pesquisadores e desenvolvedores a reanotar dados existentes de maneira mais fácil.

Ao simplificar o processo de rotulagem e apoiar a aprendizagem ativa, o ReBound permite que os usuários melhorem a qualidade dos seus dados, levando a melhores resultados no treinamento de modelos de detecção de objetos 3D. Através do feedback dos usuários, descobrimos que o ReBound é eficaz em permitir que os usuários adicionem, alterem e excluam anotações rapidamente, tornando-se uma ferramenta útil no campo em evolução dos veículos autônomos.

Fonte original

Título: ReBound: An Open-Source 3D Bounding Box Annotation Tool for Active Learning

Resumo: In recent years, supervised learning has become the dominant paradigm for training deep-learning based methods for 3D object detection. Lately, the academic community has studied 3D object detection in the context of autonomous vehicles (AVs) using publicly available datasets such as nuScenes and Argoverse 2.0. However, these datasets may have incomplete annotations, often only labeling a small subset of objects in a scene. Although commercial services exists for 3D bounding box annotation, these are often prohibitively expensive. To address these limitations, we propose ReBound, an open-source 3D visualization and dataset re-annotation tool that works across different datasets. In this paper, we detail the design of our tool and present survey results that highlight the usability of our software. Further, we show that ReBound is effective for exploratory data analysis and can facilitate active-learning. Our code and documentation is available at https://github.com/ajedgley/ReBound

Autores: Wesley Chen, Andrew Edgley, Raunak Hota, Joshua Liu, Ezra Schwartz, Aminah Yizar, Neehar Peri, James Purtilo

Última atualização: 2023-03-10 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2303.06250

Fonte PDF: https://arxiv.org/pdf/2303.06250

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes