Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Gráficos# Interação Homem-Computador# Aprendizagem de máquinas

Ligando Visuais e Toque: Uma Nova Abordagem

Um estudo sobre a fusão de feedback visual e tátil para interações realistas.

― 6 min ler


Combinando Toque e VisãoCombinando Toque e Visãodo usuário com roupas.Novos métodos para interação realista
Índice

Nesta seção, falamos sobre um estudo que combina FeedbackVisual e Tátil. O objetivo é criar um método que permita ao usuário interagir com um objeto na tela e sentir texturas, mesmo que sejam só esboços. Esse estudo ajuda a melhorar como conseguimos conectar o que vemos com o que tocamos.

Configuração Experimental

A gente desenhou um estudo onde os participantes podiam sentir tanto a aparência quanto a textura das Roupas. O estudo incluiu 20 pessoas, sendo 13 homens e 7 mulheres, com idade média de 24 anos. Cada participante foi pago pelo tempo, e os procedimentos foram revisados pra garantir que eram seguros.

Antes de começar, os participantes viram uma peça de roupa de verdade e duas imagens diferentes dela numa tela sensível ao toque especial. Essas imagens pareciam iguais, mas a sensação ao tocar era diferente. Uma imagem foi criada pelo nosso método, e a outra por métodos já existentes. Os participantes foram incentivados a tocar as imagens e a roupa real pra ver qual parecia mais realista.

Pra ajudar os participantes a se familiarizarem com a tela, rolou uma sessão de treinamento onde aprenderam a usar e sentir algumas texturas de teste. O treinamento garantiu que eles soubessem o que esperar e como interagir com o dispositivo.

Coleta de Dados

Durante os experimentos, usamos uma variedade de roupas pra coletar dados. Pra cada peça, juntamos com cuidado os dados das texturas. Esses dados foram divididos em conjuntos de treinamento, validação e teste, garantindo informação suficiente pra cada parte do processo. Pra coletar feedback sem cansar os participantes, usamos apenas cinco das 19 roupas desconhecidas em cada rodada de teste.

Design de Rede

Construímos uma rede complexa pra criar as saídas visuais e táteis. Tem diferentes camadas nessa rede, com cada camada servindo a um propósito específico. As camadas ajudam a decompor os dados de entrada e depois reconstruí-los pra criar as imagens e texturas finais.

A rede é composta por duas partes principais: o codificador e o decodificador. O codificador comprime os dados de entrada, enquanto o decodificador reconstrói isso em saídas visuais e táteis. O modelo usou uma arquitetura específica que melhora a conexão entre as diferentes camadas, permitindo resultados melhores.

Treinando o Modelo

Pra cada roupa, um modelo separado foi treinado. Pra tornar a coleta de dados mais eficiente, criamos imagens adicionais fazendo padding e cropping nas imagens originais mantendo suas formas. Também coletamos manualmente um grande número de amostras de texturas pra cada peça.

O treinamento foi feito usando um método específico que ajusta como o modelo aprende baseado nos dados que recebe. Esse processo levou cerca de 16 horas pra cada modelo, com o sistema conseguindo produzir resultados em uma fração de segundo após o treinamento.

Resultados do Método Principal

A gente fez vários testes pra ver quão eficaz era nosso método comparado aos existentes. Nossos resultados indicam que nosso método se saiu bem em gerar saídas visuais e táteis. As saídas produzidas pelo nosso método eram frequentemente vistas como mais realistas comparadas às outras.

Nos estudos, analisamos como a remoção de certas partes da rede afetou os resultados. Por exemplo, quando tiramos uma medida de perda específica, as imagens resultantes ficaram muito suaves, enquanto a remoção de outra levou a artefatos.

Fizemos estudos adicionais pra testar nosso método em novos esboços que o modelo nunca tinha visto antes. Os resultados mostraram que nosso modelo conseguiu se adaptar e produzir saídas razoáveis mesmo com dados desconhecidos.

Modelo Cross-Object

Originalmente, treinamos Modelos separados pra cada roupa. No entanto, pra melhorar a eficiência, decidimos criar um modelo mais geral que pudesse lidar com vários objetos. Esse novo modelo usa um método pra combinar informações visuais com feedback tátil de forma mais eficaz.

Pegamos dados visuais das imagens e focamos em como se relacionavam com as texturas. Usando um método conhecido como Normalização de Instância Adaptativa, conseguimos misturar melhor os dados visuais e táteis.

Esse modelo mostrou um bom desempenho na criação de saídas pra materiais conhecidos. No entanto, ainda enfrentamos desafios com alguns materiais desconhecidos, especialmente em manter a precisão das cores.

Comparações com Outros Métodos

Como não existem muitos métodos que misturem informações visuais e táteis, a gente também olhou pra um projeto recente que tentou criar sinais táteis a partir de dados visuais. Embora a abordagem deles fosse diferente da nossa, exploramos como o modelo deles se saiu em condições semelhantes.

Infelizmente, os métodos deles não geraram resultados satisfatórios quando aplicados às nossas circunstâncias, principalmente devido a diferenças na configuração e escala dos dados. Os modelos deles dependiam de um sistema complexo, incluindo dados de vídeo, que não tínhamos acesso.

As discrepâncias nos conjuntos de dados trouxeram desafios consideráveis. Aprendemos que ter um conjunto de dados rico é crucial pra treinar modelos eficazes. Nosso conjunto de dados menor dificultou que o modelo deles encontrasse as conexões necessárias.

Conclusão

Esse estudo mostra o potencial de combinar feedback visual e tátil de um jeito que pode melhorar a experiência do usuário. Desenvolvendo um método que permite interações realistas baseadas em esboços, abrimos caminho pra experiências mais imersivas em várias aplicações.

Por meio de testes rigorosos e comparações com métodos existentes, demonstramos a eficácia da nossa abordagem. À medida que avançamos, refinar esses modelos e enfrentar os desafios encontrados será fundamental pra alcançar resultados ainda melhores.

Em trabalhos futuros, nosso objetivo é expandir nosso conjunto de dados e explorar métodos adicionais pra melhorar a capacidade do modelo de lidar com vários materiais, garantindo que os usuários possam aproveitar uma experiência rica, seja interagindo com roupas antigas ou novas.

Fonte original

Título: Controllable Visual-Tactile Synthesis

Resumo: Deep generative models have various content creation applications such as graphic design, e-commerce, and virtual Try-on. However, current works mainly focus on synthesizing realistic visual outputs, often ignoring other sensory modalities, such as touch, which limits physical interaction with users. In this work, we leverage deep generative models to create a multi-sensory experience where users can touch and see the synthesized object when sliding their fingers on a haptic surface. The main challenges lie in the significant scale discrepancy between vision and touch sensing and the lack of explicit mapping from touch sensing data to a haptic rendering device. To bridge this gap, we collect high-resolution tactile data with a GelSight sensor and create a new visuotactile clothing dataset. We then develop a conditional generative model that synthesizes both visual and tactile outputs from a single sketch. We evaluate our method regarding image quality and tactile rendering accuracy. Finally, we introduce a pipeline to render high-quality visual and tactile outputs on an electroadhesion-based haptic device for an immersive experience, allowing for challenging materials and editable sketch inputs.

Autores: Ruihan Gao, Wenzhen Yuan, Jun-Yan Zhu

Última atualização: 2023-05-04 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.03051

Fonte PDF: https://arxiv.org/pdf/2305.03051

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes