Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Novo sistema gera objetos realistas para modelos de mãos

Um sistema que cria e edita objetos segurados pelas mãos em imagens.

― 11 min ler


Sintetize e Edite ObjetosSintetize e Edite Objetoscom as Mãosimagens.inovadora os objetos que estão nasUm sistema gera e ajusta de forma
Índice

A gente criou um sistema que consegue gerar e editar imagens de objetos segurados por mãos humanas. Esse sistema pode usar tanto um Modelo 3D de uma mão quanto uma imagem 2D de uma mão.

Segurar objetos é uma parte essencial das ações humanas e já foi estudado em áreas como robótica, visão computacional e ciência cognitiva. A maioria das pesquisas atuais foca em como criar diferentes posições de mãos baseadas em objetos conhecidos. O nosso trabalho inverte essa abordagem. Em vez de nos concentrarmos em como a mão interage com um objeto conhecido, perguntamos como podemos criar um objeto que se encaixe de acordo com a posição da mão dada.

Quando temos um modelo 3D de uma mão, nosso sistema escolhe um objeto adequado de uma grande coleção. Usamos representações comprimidas das formas dos objetos, que chamamos de códigos de objeto. Uma vez que escolhemos um objeto, ajustamos sua posição e orientação para que pareça que a mão está segurando ele, sem mudar a pose da mão.

Se temos apenas uma imagem 2D de uma mão, nosso sistema consegue ajustar essa imagem para adicionar ou mudar o objeto que a mão parece estar segurando. Isso é feito misturando as capacidades do nosso sistema de Seleção de Objetos com técnicas avançadas de Edição de Imagem.

Nossos testes mostram que nosso sistema se sai melhor do que métodos anteriores, criando objetos realistas tanto em ambientes 2D quanto 3D. Entendendo como os humanos seguram objetos, podemos melhorar nosso trabalho em áreas como robótica e realidade virtual.

Todo dia, as pessoas tocam e manipulam uma variedade de objetos. Essa dança intrincada do toque é crucial para interagir com o que nos cerca e realizar tarefas diárias. Aprender como os humanos lidam com objetos efetivamente tem implicações vastas para a tecnologia, especialmente em robótica e ambientes virtuais.

A maior parte da pesquisa existente foca em gerar posições de mão estáveis baseadas em formas de objetos 3D conhecidos ou Imagens 2D. Nessas abordagens tradicionais, assume-se que o objeto já é conhecido, e a tarefa é criar uma posição de mão que consiga segurá-lo com sucesso. Alguns métodos tentam gerar tanto a mão quanto o objeto, mas não conseguem apoiar novas aplicações que precisam de criação dinâmica de objetos com base na posição da mão do usuário.

Essas necessidades aparecem em campos como realidade virtual, onde seria benéfico criar objetos 3D automaticamente com base nos movimentos da mão do usuário. Na edição de imagem, a necessidade é mudar o objeto na imagem da mão, seja adicionando novos objetos ou trocando os existentes.

Para enfrentar esses desafios, propomos um método onde conseguimos sintetizar objetos segurados com base em um modelo 3D de mão ou uma imagem 2D de mão. Essa abordagem é tanto inovadora quanto necessária. Primeiro, o desafio está na variedade de objetos 3D potenciais em comparação com as formas relativamente fixas das mãos humanas. Isso torna difícil criar objetos que sejam realistas e diversos. Além disso, a necessidade de posicionamento preciso enquanto se mantém a pose da mão aumenta a complexidade.

Por último, apesar dos avanços substanciais na edição de imagem, criar imagens fiéis da interação entre a mão e o objeto ainda é complicado. Nosso método oferece uma solução ao sintetizar objetos segurados condicionados a um modelo 3D de mão ou uma imagem de mão 2D.

Quando temos um modelo 3D de mão, nosso sistema seleciona um objeto realista de um vasto repositório de objetos chamado Objaverse. O objeto escolhido é então ajustado para se encaixar naturalmente na mão sem alterar sua pose. Se só temos uma imagem de uma mão, ainda assim conseguimos criar e inserir um objeto realista nessa imagem.

Isso é feito através de várias etapas. Para modelos de mão 3D, nosso método divide a tarefa em seleção de objeto e ajuste. Aprendemos com interações reais entre mãos e objetos para garantir que nosso processo de seleção seja baseado em cenários reais de agarre.

A seguir, introduzimos um sistema para encaixar o objeto selecionado no modelo de mão. Esse encaixe garante que o objeto pareça ser segurado pela mão sem mudar a posição ou a forma da mão. Otimizamos como o objeto interage com a mão com base em leis físicas e pontos de contato. Também levamos em conta as várias condições que surgem quando os objetos são segurados de maneiras diferentes.

Para as imagens, primeiro criamos um modelo 3D a partir da imagem de entrada da mão. Esse modelo é então usado para gerar um objeto 3D adequado, que é reincorporado à imagem original. Garantimos que esse objeto adicionado se encaixe apropriadamente, considerando as oclusões onde partes da mão ou do objeto podem se cobrir.

Nosso método mostrou resultados promissores. Comparamos a qualidade do agarre, plausibilidade e capacidades de edição de imagem com métodos existentes, e demonstramos que nossa abordagem melhora o realismo do agarre em 3D e acelera o processo de encaixe.

Trabalhos Relacionados

Síntese de Agarre

A síntese de agarre é o processo de criar poses de mão que seguram efetivamente vários objetos. As pesquisas atuais em visão computacional e gráficos geralmente se concentram em gerar posições de mão que consigam contatos realistas sem sobreposição entre a mão e o objeto. Para aplicações robóticas, a ênfase muda para a criação de agarres estáveis que permitam a interação com sucesso com objetos, seja em simulação ou no mundo real.

Métodos nessa área frequentemente utilizam representações de objetos 3D para aprimorar a criação de agarres. As técnicas envolvem heurísticas e simulações físicas para otimizar os agarres durante a fase de inferência. Algumas abordagens preveem contatos plausíveis em objetos ou geram novas imagens com base em ações de agarre sintetizadas.

Avanços recentes, especialmente grandes conjuntos de dados e ambientes de simulação, facilitaram uma exploração mais profunda na síntese de agarre. Esses conjuntos de dados permitem estudos abrangentes sobre como humanos e robôs conseguem se aproximar e segurar objetos variados com sucesso.

Nossa pesquisa utiliza conjuntos de dados extensos para aprender representações compactas que ajudam a selecionar os objetos certos para as mãos. Embora trabalhos anteriores tenham incorporado movimentos de corpo inteiro em estudos de agarre, nosso foco é estritamente em refinar interações de contato usando apenas o modelo da mão.

Edição de Imagem

A edição de imagem é uma área de pesquisa significativa há muito tempo. As técnicas tradicionais para colar e misturar objetos em imagens dependiam de métodos como mistura alpha e Poisson. Avanços recentes, especialmente com modelos de difusão, elevaram a qualidade das capacidades de edição de imagem, permitindo redimensionamento, realocação e remoção de objetos, além de edições baseadas em texto.

No nosso trabalho, aproveitamos esses modelos para criar objetos 3D realistas e formas de mãos que orientam o processo de edição das imagens existentes. Nosso método se concentra em colar objetos, utilizando tanto imagens de referência quanto de origem para alcançar os resultados desejados.

Vários métodos surgiram que editam imagens puramente com base em comandos de texto, mas esses podem enfrentar desafios, especialmente quando se trata de inserir objetos segurados. Mostramos como nossa abordagem, que integra modelos 3D no pipeline de edição, leva a resultados consideravelmente melhores do que modelos apenas baseados em texto.

Nosso método é especificamente projetado para interações entre mãos e objetos, permitindo duas tarefas principais. Uma tarefa cria um objeto 3D adequado com base em um modelo 3D de mão, enquanto a outra edita imagens de mãos para adicionar ou substituir os objetos segurados, utilizando orientações da primeira tarefa.

Seleção de Objetos

Para sintetizar objetos adequados que correspondam a uma pose de mão dada, nos baseamos fortemente no aprendizado derivado de dados reais de agarre. No entanto, os conjuntos de dados disponíveis para agarres do mundo real muitas vezes carecem de diversidade em relação aos tipos de objetos. Nosso objetivo é selecionar objetos realistas e diversos de conjuntos grandes de objetos.

A base da nossa seleção de objetos depende de códigos de objeto-representações simplificadas das formas dos objetos coletadas de conjuntos de dados de agarre. Definimos esses códigos de objeto com base nas dimensões dos objetos e suas propriedades geométricas. Ao classificar essas dimensões, garantimos consistência rotacional em nossas representações.

Para selecionar objetos que se encaixem bem com as poses das mãos, exploramos as relações entre configurações de mão e códigos de objeto, treinando nossa rede de seleção para prever os códigos de objeto adequados a partir do modelo da mão.

Quando está em ação, a rede usa a informação da mão 3D para gerar um código de objeto apropriado e posições para os pontos de contato. Essa etapa é crítica, pois a interação entre a mão e o objeto depende de previsões precisas de contato.

Ajuste de Objetos

Assim que recuperamos um objeto adequado de nosso conjunto de dados, o próximo passo é ajustá-lo ao modelo de mão. O objetivo principal durante essa fase é garantir que a mão mantenha sua pose enquanto a posição do objeto é otimizada para parecer naturalmente segurada.

Conseguimos isso utilizando uma variedade de técnicas de otimização que se concentram em pontos de contato e leis físicas. Nosso procedimento de ajuste permite que o objeto selecionado se encaixe na mão sem mudar sua configuração inicial.

Diferentes funções de perda guiam essa otimização, controlando como o objeto interage com a mão. Essas funções incentivam o contato, sem deixar que o objeto penetre na mão, garantindo que o resultado final adira ao comportamento físico.

Ao usar o objeto 3D ajustado, apenas ajustamos sua posição e orientação com base nos nossos critérios de ajuste. O objetivo é garantir que o objeto tenha a forma e o posicionamento apropriados para refletir uma interação crível entre a mão e o objeto.

Edição de Imagem 2D

A tarefa de editar imagens 2D com objetos segurados envolve algumas etapas únicas. Inicialmente, extraímos um modelo 3D da mão da imagem fornecida. Em seguida, geramos um objeto 3D usando nosso processo de seleção.

Nosso próximo passo é incorporar esse objeto de volta na imagem original. Renderizamos tanto a mão quanto o objeto, garantindo que a oclusão seja levada em consideração. Isso significa que mostramos apenas partes do objeto que não estão escondidas pela mão, produzindo um efeito mais natural.

Uma vez que os elementos 3D estão alinhados, podemos usar métodos avançados de edição baseados em difusão para adicionar ou substituir objetos na imagem de forma suave. Utilizamos técnicas existentes que permitem ajustes na imagem sem precisar de treinamento ou ajuste extensivo.

Ao usar representações 3D para guiar o processo de edição, conseguimos evitar armadilhas comuns que surgem ao tentar manipular imagens apenas com base em comandos de texto. O manejo cuidadoso das oclusões ajuda a alcançar um resultado mais realista.

Limitações e Trabalhos Futuros

Embora nosso método seja eficaz, ele tem limitações. O sistema pode ser lento, especialmente ao lidar com imagens do mundo real em vez de entradas controladas. Nossos objetivos futuros incluem tornar o processo mais rápido e eficiente.

Há também o potencial uso indevido dessa tecnologia. Conseguir editar imagens de maneira tão convincente levanta preocupações éticas sobre representações enganosas. Para mitigar esses riscos, planejamos implementar marca d'água em nosso sistema para denotar claramente imagens editadas.

Nosso trabalho é apoiado por subsídios focados em avançar a pesquisa nessas áreas, e continuamos a refinar nossos métodos para gerar e editar objetos segurados. À medida que avançamos, pretendemos melhorar a velocidade e a precisão do nosso trabalho, enquanto permanecemos atentos às implicações da nossa tecnologia.

Em conclusão, nosso sistema avança na capacidade de sintetizar e editar objetos segurados com base em modelos de mão, seja em contextos 3D ou 2D. Ao unir efetivamente a questão da pose da mão e a seleção de objetos, abrimos novas possibilidades para aplicações práticas em robótica, realidade virtual e edição de imagem. À medida que continuamos a aprimorar nossa abordagem, estamos animados para ver os impactos que isso terá em várias áreas.

Fonte original

Título: GenHeld: Generating and Editing Handheld Objects

Resumo: Grasping is an important human activity that has long been studied in robotics, computer vision, and cognitive science. Most existing works study grasping from the perspective of synthesizing hand poses conditioned on 3D or 2D object representations. We propose GenHeld to address the inverse problem of synthesizing held objects conditioned on 3D hand model or 2D image. Given a 3D model of hand, GenHeld 3D can select a plausible held object from a large dataset using compact object representations called object codes.The selected object is then positioned and oriented to form a plausible grasp without changing hand pose. If only a 2D hand image is available, GenHeld 2D can edit this image to add or replace a held object. GenHeld 2D operates by combining the abilities of GenHeld 3D with diffusion-based image editing. Results and experiments show that we outperform baselines and can generate plausible held objects in both 2D and 3D. Our experiments demonstrate that our method achieves high quality and plausibility of held object synthesis in both 3D and 2D.

Autores: Chaerin Min, Srinath Sridhar

Última atualização: 2024-06-14 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.05059

Fonte PDF: https://arxiv.org/pdf/2406.05059

Licença: https://creativecommons.org/licenses/by-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes