Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Avanços na Localização de Objetos 3D para Carros Autônomos

Novo framework melhora a precisão da localização de objetos 3D usando uma única câmera.

― 6 min ler


Avanço na Localização 3DAvanço na Localização 3Dcom uma única câmera.Revolucionando a detecção de objetos
Índice

A localização de objetos 3D em cenas de direção é uma tarefa importante para carros autônomos. Mas, é bem difícil porque o trabalho é complexo. O objetivo é descobrir a posição 3D dos objetos usando só uma câmera. Isso é crucial porque saber onde os veículos estão no espaço 3D pode ajudar a evitar acidentes e melhorar a navegação. Embora tecnologias como Lidar, que usa laser para criar mapas detalhados, e sistemas de câmeras estereoscópicas tenham mostrado ótimos resultados, usar uma única câmera para localização 3D ainda é desafiador.

Um problema é que a gente precisa estimar a posição 3D para cada pixel de um objeto, o que ajuda a obter dados de medição melhores para resolver problemas de posicionamento. Infelizmente, conseguir informações precisas em situações reais de direção é difícil. Isso se deve às lacunas nos dados coletados de ferramentas como Lidar, que podem perder detalhes ou adicionar ruído. Além disso, criar modelos 3D de objetos muitas vezes é inviável.

Nossa Abordagem

Neste trabalho, apresentamos uma estrutura que usa informações específicas sobre objetos, como máscaras (que mostram onde o objeto está numa imagem) e caixas 3D (que definem o tamanho do objeto), para ajudar a ensinar computadores a reconhecer as formas dos objetos em 3D.

A ideia chave é aprender uma forma geral para diferentes tipos de objetos diretamente de imagens reais de direção. Isso nos ajuda a lidar com problemas comuns que vêm de olhar para imagens de um único ponto de vista. Também fazemos escolhas inteligentes no nosso design para que as posições 3D possam ser aprendidas de forma mais eficaz.

Esse método leva a resultados impressionantes, tornando-se um dos melhores em determinar as posições 3D de objetos no benchmark KITTI, que é uma forma comum de testar esses sistemas. Nossa estrutura melhora as técnicas de localização existentes e mostra um grande potencial na área.

A Importância da Localização 3D Monocular

Quando os carros autônomos estão na estrada, eles precisam saber onde está tudo ao seu redor. Isso inclui entender as posições de outros carros, pedestres e obstáculos. Enquanto Lidar e sistemas de câmeras estereoscópicas se mostraram eficazes, usar apenas uma única câmera para essa tarefa ainda é um trabalho em progresso. Envolve reconstruir a forma 3D dos objetos usando só o que a única câmera pode ver.

Isso pode ser complicado porque estimar formas 3D a partir de uma única imagem pode levar a incertezas. No entanto, métodos recentes que combinam formas de objetos aprendidas com dados visuais mostraram promessa. Esses métodos podem ajudar a melhorar a precisão da localização 3D.

Desafios e Limitações

Apesar dos avanços, ainda existem desafios. Por exemplo, descobrir a posição de um objeto pode ficar complicado em situações de pouca luz, superfícies planas ou partes do objeto escondidas. Esses fatores criam ambiguidade que dificulta para o sistema entender onde os objetos estão no espaço 3D.

Um método comum para resolver esses problemas envolve usar uma técnica chamada estimativa Perspectiva-n-Ponto (PnP), que depende de restrições conhecidas entre imagens 2D e pontos 3D. No entanto, obter informações confiáveis sobre as formas dos objetos ainda é um obstáculo.

Aproveitando Modelos de Forma Neural

Nossa estrutura foca em uma nova forma de obter informações sobre a forma dos objetos usando algo chamado Renderização Neural. Isso envolve treinar um modelo para criar formas com base em máscaras e caixas 3D de objetos. Os modelos de forma são então renderizados em mapas que fornecem as informações necessárias para estimar com precisão as posições dos objetos.

A gente cria um modelo de forma que aprende a estrutura geral das categorias, permitindo adaptação em cenários do mundo real. O modelo nos permite melhorar a precisão da localização, mesmo sem usar dados de Lidar ou modelos CAD.

Aprendizado Centrado em Objetos

Uma parte chave da nossa abordagem é aprender de um ponto de vista centrado em objetos. Isso significa focar em objetos individuais em vez de considerá-los dentro do contexto de toda a cena. Acreditamos que essa abordagem ajuda a melhorar a precisão da localização, particularmente para objetos distantes ou ocultos.

Ao recortar os objetos relevantes e usar informações focadas, o modelo aprende melhor. Isso contrasta com métodos que levam em conta toda a cena, o que pode às vezes levar a confusões ou imprecisões.

Escolhas de Design

Fizemos várias escolhas importantes no nosso design para deixar o processo de aprendizado mais eficaz. Isso inclui aprender formas de uma maneira que enfatiza as características do objeto. Também integramos técnicas adicionais para lidar com ambiguidades.

Por exemplo, usamos uma técnica chamada regularização KL que ajuda a refinar as formas aprendidas, garantindo consistência nas previsões de forma. Essa etapa é essencial para evitar variações redundantes no aprendizado de forma.

Além disso, estudamos o impacto de diferentes métodos de treinamento e como eles afetam o desempenho da localização. Nossos experimentos mostram que nosso método supera consistentemente outros em termos de precisão, enquanto é robusto contra variações nas fontes de supervisão.

Avaliação de Desempenho

Nosso método foi avaliado em relação a técnicas existentes usando o dataset KITTI, que é o benchmark mais comum para avaliar métodos de localização. Os resultados mostram que nossa abordagem alcança melhor precisão do que muitos outros métodos, especialmente aqueles que dependem apenas de medições geométricas diretas ou previsões de profundidade.

Em particular, quando comparamos nosso método a outros, descobrimos que o uso de máscaras de instância permite uma supervisão de alta qualidade, o que se traduz em um aprendizado de forma melhor e, consequentemente, em um desempenho de localização melhorado.

Conclusão

Resumindo, propusemos uma nova estrutura para localização de objetos 3D que aborda com sucesso os desafios de usar uma única câmera em situações reais de direção. Ao aproveitar modelos de forma neural, conseguimos fornecer uma supervisão de aprendizado melhor sem precisar de métodos de coleta de dados caros ou complicados.

Nossa pesquisa também destaca a importância das escolhas de design e como elas podem melhorar o desempenho. Embora ainda haja limitações, como a dependência de um detector 3D base e desafios com formas irregulares, acreditamos que essa estrutura abre novas possibilidades para melhorar a precisão dos carros autônomos.

No geral, essa pesquisa incentiva uma exploração maior de como técnicas de renderização neural podem ser aproveitadas para tarefas de localização, abrindo caminho para tecnologias de direção autônoma mais confiáveis.

Fonte original

Título: NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization

Resumo: Monocular 3D object localization in driving scenes is a crucial task, but challenging due to its ill-posed nature. Estimating 3D coordinates for each pixel on the object surface holds great potential as it provides dense 2D-3D geometric constraints for the underlying PnP problem. However, high-quality ground truth supervision is not available in driving scenes due to sparsity and various artifacts of Lidar data, as well as the practical infeasibility of collecting per-instance CAD models. In this work, we present NeurOCS, a framework that uses instance masks and 3D boxes as input to learn 3D object shapes by means of differentiable rendering, which further serves as supervision for learning dense object coordinates. Our approach rests on insights in learning a category-level shape prior directly from real driving scenes, while properly handling single-view ambiguities. Furthermore, we study and make critical design choices to learn object coordinates more effectively from an object-centric view. Altogether, our framework leads to new state-of-the-art in monocular 3D localization that ranks 1st on the KITTI-Object benchmark among published monocular methods.

Autores: Zhixiang Min, Bingbing Zhuang, Samuel Schulter, Buyu Liu, Enrique Dunn, Manmohan Chandraker

Última atualização: 2023-05-28 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.17763

Fonte PDF: https://arxiv.org/pdf/2305.17763

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes