Avançando a Compreensão 3D em Modelos de IA
Novo modelo de IA melhora a compreensão de imagens em três dimensões.
― 7 min ler
Avanços recentes em inteligência artificial mostraram que Modelos de linguagem grandes (LLMs) podem fazer coisas incríveis com imagens e texto. Este artigo fala sobre como podemos levar isso um passo adiante, permitindo que esses modelos entendam imagens não apenas em duas dimensões, mas também em três dimensões.
3D
A Necessidade de EntendimentoA maioria dos modelos atuais pode analisar e interpretar imagens que são planas ou bidimensionais. Eles conseguem reconhecer Objetos, ler textos e entender o contexto, mas fazem isso sem considerar a profundidade. No entanto, nós humanos percebemos o mundo naturalmente em três dimensões. Conseguimos julgar distâncias, entender relações espaciais e navegar em ambientes com base na percepção de profundidade. Esse entendimento 3D é fundamental em tarefas do mundo real, como dirigir, robótica e realidade virtual.
Para abordar essa lacuna, queremos criar modelos que consigam analisar e raciocinar sobre imagens levando em conta o espaço 3D. Isso envolve reconhecer não apenas quais objetos estão presentes em uma imagem, mas também onde eles estão localizados em um espaço tridimensional.
Construindo a Base
Para criar um modelo que entenda 3D, precisamos primeiro de um conjunto de dados bem estruturado. Combinamos vários Conjuntos de dados existentes que contêm tanto imagens 2D quanto suas informações 3D associadas. Esse conjunto de dados é criado para incentivar o modelo a aprender através de perguntas e respostas. Ao fazer perguntas sobre as imagens, possibilitamos que o modelo aprenda a conectar visuais bidimensionais com seus contextos tridimensionais.
O Papel do Pré-treinamento em Grande Escala
O próximo passo envolve treinar nosso modelo usando esse grande conjunto de dados. Introduzimos um novo modelo especificamente desenhado para processar informações tanto 2D quanto 3D. Uma das descobertas empolgantes da nossa pesquisa é que simplesmente aumentar a quantidade de dados de treinamento pode melhorar significativamente a capacidade de entendimento 3D do modelo. Não precisávamos mudar a estrutura do modelo ou a forma como o treinamos para alcançar esses resultados.
Enquanto treinávamos o modelo, vimos que ele conseguia seguir instruções complexas e se adaptar a vários formatos de entrada. Essa flexibilidade é crucial, já que os usuários podem querer interagir com o modelo de diferentes maneiras, como pedindo para identificar objetos em 2D ou 3D.
Desempenho em Tarefas do Mundo Real
Testamos nosso modelo em várias tarefas de referência, especialmente aquelas que envolvem raciocínio sobre cenários de direção. Os resultados foram impressionantes. Nosso modelo superou significativamente os métodos existentes nessas referências, demonstrando sua capacidade de posicionar objetos no espaço tridimensional com base em sua aparência nas imagens.
Por exemplo, em ambientes externos, nosso modelo mostrou melhorias substanciais na identificação e rastreamento de veículos e pedestres. Esse tipo de desempenho é essencial para aplicações em direção autônoma, onde entender uma cena em 3D pode ser a diferença entre navegação segura e um acidente.
As Vantagens do Nosso Modelo
Nosso modelo exibe algumas características fascinantes que o diferenciam de outros modelos atuais. Ele pode aprender a melhorar seu desempenho ao longo do tempo usando o que já previu anteriormente. Por exemplo, se ele identifica um objeto em 2D, pode usar essa informação para inferir melhor sua localização em 3D. Isso é parecido com como os humanos raciocinam passo a passo para resolver problemas.
Além disso, nosso modelo pode interpretar eficientemente uma ampla gama de instruções. Seja recebido com perguntas simples ou solicitações mais complexas, ele pode gerar respostas apropriadas e saídas visuais. Os usuários podem até fornecer dicas, como caixas de delimitação em torno de objetos, para guiar o foco do modelo, aumentando sua precisão.
Entendendo os Dados
O conjunto de dados que criamos para treinar nosso modelo é diversificado. Incluímos uma variedade de imagens de diferentes cenários, tanto internos quanto externos. Essa variedade ajuda o modelo a generalizar melhor quando encontra novas imagens. Além disso, garantimos que o conjunto de dados contivesse rótulos bem definidos que descrevem não apenas os objetos em cada imagem, mas também suas posições e dimensões no espaço 3D.
Ao coletar dados de múltiplas fontes, conseguimos enriquecer o entendimento do nosso modelo sobre o mundo, treinando-o para reconhecer uma ampla gama de categorias de objetos e seus atributos. O modelo aprendeu a associar esses atributos com relações espaciais, criando um entendimento mais robusto do seu ambiente.
Como o Modelo Aprende
O processo de aprendizagem do nosso modelo envolve desmembrar informações complexas em partes gerenciáveis. Projetamos tarefas que aumentam gradualmente em dificuldade, permitindo que o modelo construa seu entendimento passo a passo. Por exemplo, ele pode primeiro aprender a localizar um objeto em uma imagem 2D antes de passar a identificar sua profundidade em um espaço 3D.
Cada tarefa de aprendizagem é estruturada como um diálogo de perguntas e respostas. Essa estrutura conversacional incentiva o modelo a se envolver ativamente com os dados, ajudando-o a raciocinar sobre suas respostas. Ao intercalar perguntas mais fáceis com perguntas mais difíceis, criamos uma estrutura de treinamento que promove um aprendizado eficaz.
Avaliando as Capacidades do Modelo
Depois de treinar, avaliamos o desempenho do nosso modelo em várias referências que foram projetadas para testar a compreensão 3D. Essas avaliações revelaram que nosso modelo conseguia localizar objetos com precisão em espaço tridimensional e seguir tarefas de raciocínio complexas que são comuns em aplicações do mundo real, como direção autônoma.
Por exemplo, quando dado um comando como “Encontre o carro preto à esquerda”, nosso modelo podia identificar com sucesso a posição do carro no espaço 3D, levando em conta a profundidade e a localização na imagem. Essa habilidade é particularmente vital para aplicações onde navegação segura e evasão de obstáculos são críticas.
Enfrentando Desafios
Embora nossos resultados sejam promissores, também encontramos desafios. Por exemplo, o modelo às vezes tem dificuldade com a percepção de profundidade em cenas complicadas ou quando objetos estão agrupados perto um do outro. Situações onde objetos semelhantes estão presentes podem levar a desajustes semânticos - onde o modelo identifica incorretamente um objeto com base em seus atributos.
Estamos continuando a refinar o modelo para minimizar esses problemas. Uma abordagem é aumentar a diversidade dos cenários de treinamento, garantindo que o modelo seja exposto a uma ampla variedade de tipos de objetos e arranjos. Isso ajudará a aprender a distinguir entre objetos situados próximos de forma mais eficaz.
Direções Futuras
Nosso trabalho contínuo se concentra em melhorar a compreensão do modelo sobre cenas dinâmicas, onde os objetos podem estar se movendo. Isso envolve incorporar dados de vídeo para que o modelo possa aprender a lidar com sequências de imagens, um elemento crítico para tarefas como navegação em tempo real em veículos autônomos.
Outra área para melhoria é a capacidade do modelo de generalizar. Ao treiná-lo em conjuntos de dados e cenários mais diversos, buscamos fomentar sua adaptabilidade a novos ambientes e situações. Nosso objetivo é criar um modelo que não só entenda imagens estáticas, mas também tenha a capacidade de processar feeds de vídeo ao vivo e reagir de acordo.
Conclusão
Em resumo, desenvolvemos um novo modelo que melhora significativamente a compreensão de imagens em espaços 2D e 3D. Ao aproveitar um grande e diversificado conjunto de dados, conseguimos permitir que o modelo aprenda a raciocinar sobre imagens de maneiras que imitam a percepção humana. Os resultados demonstram que, ao focar na escala de dados e em estratégias de treinamento eficazes, podemos criar modelos capazes de realizar tarefas de raciocínio complexas em cenários do mundo real.
Esse trabalho é apenas o começo. À medida que continuamos a melhorar e refinar nosso modelo, antecipamos capacidades ainda maiores em entender e interagir com o mundo à nossa volta, abrindo caminho para avanços emocionantes em áreas como robótica, direção autônoma e realidade virtual.
Título: Language-Image Models with 3D Understanding
Resumo: Multi-modal large language models (MLLMs) have shown incredible capabilities in a variety of 2D vision and language tasks. We extend MLLMs' perceptual capabilities to ground and reason about images in 3-dimensional space. To that end, we first develop a large-scale pre-training dataset for 2D and 3D called LV3D by combining multiple existing 2D and 3D recognition datasets under a common task formulation: as multi-turn question-answering. Next, we introduce a new MLLM named Cube-LLM and pre-train it on LV3D. We show that pure data scaling makes a strong 3D perception capability without 3D specific architectural design or training objective. Cube-LLM exhibits intriguing properties similar to LLMs: (1) Cube-LLM can apply chain-of-thought prompting to improve 3D understanding from 2D context information. (2) Cube-LLM can follow complex and diverse instructions and adapt to versatile input and output formats. (3) Cube-LLM can be visually prompted such as 2D box or a set of candidate 3D boxes from specialists. Our experiments on outdoor benchmarks demonstrate that Cube-LLM significantly outperforms existing baselines by 21.3 points of AP-BEV on the Talk2Car dataset for 3D grounded reasoning and 17.7 points on the DriveLM dataset for complex reasoning about driving scenarios, respectively. Cube-LLM also shows competitive results in general MLLM benchmarks such as refCOCO for 2D grounding with (87.0) average score, as well as visual question answering benchmarks such as VQAv2, GQA, SQA, POPE, etc. for complex reasoning. Our project is available at https://janghyuncho.github.io/Cube-LLM.
Autores: Jang Hyun Cho, Boris Ivanovic, Yulong Cao, Edward Schmerling, Yue Wang, Xinshuo Weng, Boyi Li, Yurong You, Philipp Krähenbühl, Yan Wang, Marco Pavone
Última atualização: 2024-05-06 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2405.03685
Fonte PDF: https://arxiv.org/pdf/2405.03685
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.