Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Avanços na Detecção de Objetos 3D Monoculares

O framework MonoLiG melhora a detecção 3D usando câmeras monoculares e dados de LiDAR.

― 8 min ler


MonoLiG: Detecção 3DMonoLiG: Detecção 3DMelhoradacâmera e LiDAR pra uma detecção melhor.Uma estrutura que combina dados de
Índice

A detecção de objetos 3D é super importante para carros autônomos. Ajuda o carro a entender o ambiente ao reconhecer e localizar objetos. Existem várias formas de fazer isso, mas usar sensores LiDAR é bem comum. LiDAR é uma tecnologia que mede distâncias usando luz e pode fornecer informações muito precisas sobre a forma 3D do ambiente. O problema é que esses sistemas podem ser bem caros para carros comuns.

Por outro lado, câmeras comuns capturam imagens em 2D e são bem mais baratas. Recentemente, os pesquisadores têm tentado usar essas câmeras para fazer detecção de objetos 3D de forma eficaz, o que levou a um aumento no estudo de detectores de objetos 3D monoculares.

O Desafio da Anotação na Detecção de Objetos

Para construir detectores eficazes, os pesquisadores precisam de muitos dados rotulados. Anotar objetos 3D em imagens dá um trabalho danado e é muito cansativo, especialmente para imagens monoculares, já que não há informação de profundidade. Por isso, durante a coleta de dados, nuvens de pontos LiDAR são usadas para ajudar os anotadores a marcar as posições 3D dos objetos.

Para reduzir custos, apenas os frames mais úteis são rotulados em um conjunto de amostras coletadas. Isso faz com que uma quantidade grande de dados LiDAR fique sem rotulação, o que poderia ser útil para treinar os modelos.

Conceitos de Aprendizado semi-supervisionado e Aprendizado Ativo

Aprendizado semi-supervisionado (SSL) e aprendizado ativo (AL) são duas formas que ajudam a melhorar o desempenho do modelo enquanto reduzem a quantidade de rotulação necessária. AL escolhe as amostras mais informativas para rotular, enquanto SSL usa dados não rotulados para treinar o modelo.

Em um método recente, as previsões de um detector LiDAR são usadas como rótulos verdadeiros para dados não rotulados, combinados com dados rotulados. Mas algumas previsões do sensor LiDAR podem não ser precisas, o que pode afetar o desempenho do detector monocular.

Apresentando o Framework MonoLiG

O framework MonoLiG foi desenvolvido para melhorar o processo de detecção de objetos 3D usando câmeras monoculares com a ajuda de dados LiDAR. Ele inclui duas fases principais: treinamento e seleção.

Fase de Treinamento

Na fase de treinamento, um detector LiDAR é usado como professor para fornecer rótulos para o detector monocular, que atua como aluno. Para reduzir o efeito negativo de previsões erradas do LiDAR, o framework escala a função de perda com base na confiança das previsões. Isso envolve estimar quão incertas são as previsões do LiDAR.

Fase de Seleção

Durante a fase de seleção, o framework decide quais amostras rotular com base nas incertezas de ambos os detectores. Ele analisa como diferentes as previsões do professor e do aluno são, além da incerteza das previsões do LiDAR. O objetivo é selecionar amostras que sejam as mais informativas para melhorar o desempenho do aluno.

Vantagens do MonoLiG

O framework MonoLiG traz várias vantagens em relação aos métodos tradicionais. Ele utiliza tanto a precisão dos dados LiDAR quanto a economia das imagens monoculares. Ao aproveitar as forças de ambos os tipos de dados, ele alcança um desempenho melhor na detecção de objetos 3D enquanto minimiza os custos de rotulação.

Resultados experimentais mostram que essa estratégia leva a um desempenho melhor em conjuntos de dados de teste padrão como KITTI e Waymo. Ele também alcança uma redução significativa nos custos de rotulação.

Aprendizado Ativo na Detecção de Objetos

O aprendizado ativo foca na seleção das amostras mais informativas para rotulação. Existem duas estratégias principais: métodos baseados em incerteza e métodos baseados em diversidade. Os métodos baseados em incerteza estimam quão incerto o modelo está sobre amostras específicas, enquanto os métodos baseados em diversidade visam cobrir uma ampla gama de amostras.

No contexto da detecção de objetos, a ideia é selecionar amostras que o modelo atual acha desafiadoras. Isso é feito usando pontuações de seleção baseadas em medidas de incerteza.

Aprendizado Semi-Supervisionado na Detecção de Objetos

O aprendizado semi-supervisionado usa uma mistura de dados rotulados e uma quantidade maior de dados não rotulados para melhorar o treinamento do modelo. Ele pode ser dividido em duas categorias: regularização de consistência e pseudo-rotulação.

A regularização de consistência ajuda o modelo a aprender penalizando inconsistências em suas previsões nos mesmos dados sob diferentes condições. Por outro lado, a pseudo-rotulação permite que o modelo faça previsões em dados não rotulados e usa essas previsões como rótulos para treinamento adicional.

Um dos principais desafios da pseudo-rotulação é o risco de overfitting em previsões erradas. Isso pode ser mitigado filtrando pseudo-rótulos com base em pontuações de confiança ou usando pseudo-rótulos suaves, que pesam cada previsão de acordo com sua confiança.

Combinando Aprendizado Semi-Supervisionado e Aprendizado Ativo

Trabalhos recentes combinaram aprendizado semi-supervisionado e aprendizado ativo usando rótulos previstos durante ciclos de treinamento. Essa abordagem conjunta permite que os modelos aprendam de forma eficiente tanto com dados rotulados quanto não rotulados.

Fase de Treinamento do MonoLiG

No framework MonoLiG, a fase de treinamento começa com um modelo professor treinado com dados rotulados. O professor faz previsões para amostras não rotuladas, que são então usadas como rótulos proxy para treinar o modelo aluno. Essa fase incorpora um mecanismo para pesar pseudo-rótulos com base na incerteza das previsões do professor.

Fase de Seleção do MonoLiG

Na fase de seleção, o framework escolhe as melhores amostras para rotulação. A pontuação de seleção considera a incerteza epistêmica do modelo aluno, a inconsitência entre as previsões do professor e do aluno, e a incerteza aleatória do modelo professor. Essa abordagem visa melhorar o desempenho do modelo de forma mais eficaz do que critérios tradicionais de seleção.

Configuração Experimental e Resultados

Para validar o framework MonoLiG, foram realizados experimentos usando dois conjuntos de dados: KITTI e Waymo, que contêm frames de LiDAR e câmera sincronizados com rótulos de caixa delimitadora 3D. A eficácia do framework foi comparada com vários métodos de aprendizado ativo.

Os resultados mostraram melhorias significativas nas métricas de desempenho, especialmente em termos de precisão média na detecção de objetos 3D. Além disso, o MonoLiG precisou de menos amostras rotuladas para alcançar alto desempenho, resultando em uma economia melhor nos custos de anotação.

Comparando com Outros Métodos

O desempenho do MonoLiG foi comparado com vários métodos de aprendizado ativo de última geração. Ele consistentemente superou as alternativas em ambos os conjuntos de dados. Em termos de eficiência de rotulação, o MonoLiG conseguiu alcançar maior precisão com menos instâncias rotuladas, demonstrando sua eficácia.

Estratégias de Confiança para Pseudo-Rotulação

Diferentes estratégias para gerar pseudo-rótulos também foram testadas para ver sua eficácia em melhorar o desempenho de detecção. Estratégias que utilizavam incerteza nas previsões se mostraram benéficas. A capacidade de filtrar previsões menos confiáveis levou a melhores resultados no treinamento do modelo.

Explorando Escolhas de Arquitetura

Além disso, a robustez do framework MonoLiG foi testada com vários pares de modelos professor-aluno. Essa flexibilidade confirmou que o framework poderia aumentar o desempenho com sucesso em diferentes combinações de detectores.

Conclusão

O framework MonoLiG representa um avanço significativo na área de detecção de objetos 3D monoculares. Ele combina efetivamente as forças do aprendizado semi-supervisionado e do aprendizado ativo, levando a um desempenho melhor e a custos de rotulação reduzidos.

A integração bem-sucedida da orientação do LiDAR oferece um caminho para tornar a detecção de objetos 3D mais acessível e eficiente. Há potencial para melhorias futuras no framework, incorporando mais modalidades de dados e refinando técnicas de pseudo-rotulação para alcançar uma precisão ainda maior.

Conforme a tecnologia continua a evoluir, as aplicações para sistemas de direção autônoma mais seguros e inteligentes se tornam cada vez mais promissoras.

Fonte original

Título: Monocular 3D Object Detection with LiDAR Guided Semi Supervised Active Learning

Resumo: We propose a novel semi-supervised active learning (SSAL) framework for monocular 3D object detection with LiDAR guidance (MonoLiG), which leverages all modalities of collected data during model development. We utilize LiDAR to guide the data selection and training of monocular 3D detectors without introducing any overhead in the inference phase. During training, we leverage the LiDAR teacher, monocular student cross-modal framework from semi-supervised learning to distill information from unlabeled data as pseudo-labels. To handle the differences in sensor characteristics, we propose a data noise-based weighting mechanism to reduce the effect of propagating noise from LiDAR modality to monocular. For selecting which samples to label to improve the model performance, we propose a sensor consistency-based selection score that is also coherent with the training objective. Extensive experimental results on KITTI and Waymo datasets verify the effectiveness of our proposed framework. In particular, our selection strategy consistently outperforms state-of-the-art active learning baselines, yielding up to 17% better saving rate in labeling costs. Our training strategy attains the top place in KITTI 3D and birds-eye-view (BEV) monocular object detection official benchmarks by improving the BEV Average Precision (AP) by 2.02.

Autores: Aral Hekimoglu, Michael Schmidt, Alvaro Marcos-Ramiro

Última atualização: 2023-07-17 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2307.08415

Fonte PDF: https://arxiv.org/pdf/2307.08415

Licença: https://creativecommons.org/licenses/by-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes