Simple Science

Ciência de ponta explicada de forma simples

# Informática# Multimédia

Headsets de VR em conta para chamadas de vídeo realistas

Um novo sistema melhora as chamadas de vídeo em headsets VR acessíveis usando comandos de voz.

― 8 min ler


Tecnologia de VR paraTecnologia de VR parachamadas melhoressoluções de VR acessíveis.Melhorando chamadas de vídeo com
Índice

Os headsets de Realidade Virtual (RV) estão sendo usados cada vez mais para reuniões e colaborações online. Mas, esses aparelhos podem cobrir o rosto da pessoa, o que torna as chamadas de vídeo desafiadoras. As soluções atuais costumam exigir equipamentos caros e não são muito acessíveis. Este artigo apresenta um novo sistema criado para oferecer chamadas de vídeo realistas em headsets de RV mais em conta, focando em um método que usa a voz para criar um modelo 3D do rosto do usuário.

O Desafio

Quando as pessoas usam headsets de RV, a parte superior do rosto delas geralmente fica escondida. Isso traz problemas nas chamadas de vídeo, onde expressões faciais e pistas visuais são essenciais para uma comunicação eficaz. As soluções típicas incluem o uso de avatares em estilo cartoon ou métodos avançados de reconstrução. Porém, esses últimos geralmente dependem de hardware caro que a maioria das pessoas não pode pagar.

O objetivo do nosso projeto é ver se conseguimos criar uma experiência de chamada de vídeo realista em um headset de RV de baixo custo. Isso significa lidar com dois problemas principais:

  1. Como representar com precisão a parte inferior do rosto sem sensores caros.
  2. Como reduzir quaisquer atrasos no vídeo, já que uma comunicação fluida é vital.

Solução Proposta

Para enfrentar o primeiro problema, decidimos usar a entrada de voz para criar os movimentos da boca e da mandíbula, permitindo que construíssemos uma representação realista de como uma pessoa fala. Isso significa que não precisaremos de equipamentos avançados para coletar os dados necessários para a reconstrução facial.

Para o segundo problema, propusemos um método em duas etapas. Primeiro, iremos prever como a pessoa se comportará nos próximos momentos usando sua voz e movimentos da cabeça. Preparando os pedaços de vídeo com antecedência, baseando-se nessas previsões, conseguimos diminuir a sensação de atraso.

Em segundo lugar, em vez de gerar o vídeo de melhor qualidade e depois ajustá-lo quando necessário, nosso sistema manterá vários modelos em diferentes níveis de qualidade. Ele escolherá o modelo certo com base nas condições atuais da rede, garantindo a melhor saída de vídeo possível sem causar atrasos.

Visão Geral do Sistema

Este novo sistema é composto por três partes principais: um preditor, um Gerador e um Controlador.

Preditore

O preditor é projetado para adivinhar as ações futuras do usuário com base em diferentes tipos de entrada, como movimentos da cabeça, voz e piscadas. Ele combina esses dados para fazer previsões precisas sobre o que o usuário fará em seguida.

Gerador

O gerador usa as previsões feitas pelo preditor para animar o rosto do usuário. Ele se baseia na entrada de voz, movimento da cabeça e piscadas. Esse gerador é único porque pode criar vários modelos de qualidade de vídeo, permitindo que o sistema escolha adaptativamente o melhor para equilibrar qualidade e velocidade.

Controlador

O controlador ajusta qual modelo de gerador usar com base na Qualidade do Vídeo e no atraso. Ele monitora os pedaços de vídeo armazenados em um buffer e decide qual qualidade de vídeo se encaixa melhor nas condições atuais para garantir uma experiência suave.

Como Funciona

Para começar a usar o sistema, o usuário só precisa tirar uma foto do seu rosto. Essa foto é usada para coletar características como tom de pele, estrutura facial e pontos-chave que representam seu rosto único. Esse é um processo de configuração único.

Durante uma chamada de vídeo, o sistema coleta dados de voz, movimentos da cabeça e piscadas para criar uma animação facial ao vivo. Os dados de voz são transformados em parâmetros que retratam as expressões faciais do usuário. Esses parâmetros são então combinados com características-chave para animar o rosto de forma realista.

O controlador trabalha nos bastidores para selecionar a melhor qualidade de vídeo com base nas condições atuais da rede do usuário. Isso significa que, se a rede estiver lenta, pode escolher um vídeo de qualidade inferior para garantir que a chamada não trave.

Estudo do Usuário e Feedback

Para entender como o sistema se sai, foi feito um estudo com 30 voluntários divididos em pares. Cada um teve duas chamadas de vídeo: uma usando uma configuração tradicional e outra usando o novo sistema. A maioria dos participantes gostou da reconstrução facial realista e sentiu que isso tornava as conversas mais envolventes. Eles notaram que as animações e expressões faciais pareceram naturais e próximas das interações da vida real.

Algumas pessoas apontaram que às vezes as animações pareciam exageradas ou não naturais. Elas sugeriram que melhorar a forma como a voz é traduzida em expressões faciais poderia aumentar o realismo, especialmente durante mudanças emocionais rápidas.

No geral, a maioria dos participantes sentiu que o novo sistema proporcionou uma experiência de chamada de vídeo melhor em headsets de RV acessíveis.

Prevendo o Comportamento do Usuário

Para avaliar quão bem o preditor funciona, foram realizados experimentos utilizando dados de movimento da cabeça, piscadas, voz e direção do olhar coletados dos voluntários durante as chamadas de vídeo. O preditor foi testado contra outros modelos, incluindo modelos LSTM e Transformer.

Os resultados mostraram que nosso preditor teve um desempenho melhor que os outros em prever o comportamento do usuário. Ele conseguiu antecipar ações com precisão, permitindo que o sistema preparasse o vídeo com antecedência.

Gerando Vídeos Realistas

A eficácia do gerador de vídeo foi avaliada usando vídeos gravados de pessoas falando. Comparando os vídeos gerados com imagens reais, a realismo e qualidade foram avaliadas usando vários métodos.

O gerador foi testado contra um sistema líder de vídeos de pessoas falando. Ele produziu vídeos de alta qualidade que eram muito próximos em realismo dos melhores sistemas disponíveis. A capacidade do gerador de utilizar voz e movimentos da cabeça contribuiu para uma animação de expressões faciais mais precisa.

Adaptando a Qualidade do Vídeo

Para testar o controlador, simulações modelaram diferentes condições de rede. Os resultados mostraram que nossa abordagem poderia selecionar a melhor qualidade de vídeo para a situação atual enquanto minimizava os atrasos. O sistema teve um desempenho melhor que os sistemas de qualidade fixa tradicionais, que frequentemente levavam a interrupções e baixa qualidade durante as chamadas de vídeo.

Quando as condições da rede variaram, o controlador se adaptou para escolher vídeos de maior qualidade durante melhores condições de rede e qualidade inferior quando a rede estava mais fraca. Essa adaptabilidade garante uma experiência suave para o usuário durante toda a chamada.

Conclusão

Os avanços neste sistema representam um grande passo para videoconferências em RV acessíveis. Ao não precisar de equipamentos caros para vídeos de alta qualidade, estamos abrindo portas para muitos usuários aproveitarem reuniões virtuais que parecem tão reais quanto conversas cara a cara.

Enquanto o feedback inicial foi positivo, há áreas que podem ser melhoradas. Alguns usuários expressaram preocupações sobre o realismo das animações, sugerindo que um foco em refinar as respostas às entradas de voz poderia levar a melhores resultados.

Também existem oportunidades para futuras explorações, como incorporar mais métodos de entrada para capturar movimentos faciais sutis e personalizar o sistema para se adaptar melhor a cada usuário.

Por último, precisamos pensar sobre o lado ético do uso dessa tecnologia, garantindo que não seja usada de maneiras enganosas e que os usuários entendam como suas imagens estão sendo usadas em um espaço virtual. Discussões regulares sobre o desenvolvimento responsável de tais tecnologias são vitais para equilibrar inovação com ética.

No geral, este sistema tem o potencial de melhorar significativamente a comunicação remota, proporcionando interações imersivas e realistas, tornando-se uma ferramenta atraente para uma variedade de aplicações, desde trabalho remoto até aprendizado online.

Fonte original

Título: HeadsetOff: Enabling Photorealistic Video Conferencing on Economical VR Headsets

Resumo: Virtual Reality (VR) has become increasingly popular for remote collaboration, but video conferencing poses challenges when the user's face is covered by the headset. Existing solutions have limitations in terms of accessibility. In this paper, we propose HeadsetOff, a novel system that achieves photorealistic video conferencing on economical VR headsets by leveraging voice-driven face reconstruction. HeadsetOff consists of three main components: a multimodal predictor, a generator, and an adaptive controller. The predictor effectively predicts user future behavior based on different modalities. The generator employs voice, head motion, and eye blink to animate the human face. The adaptive controller dynamically selects the appropriate generator model based on the trade-off between video quality and delay. Experimental results demonstrate the effectiveness of HeadsetOff in achieving high-quality, low-latency video conferencing on economical VR headsets.

Autores: Yili Jin, Xize Duan, Fangxin Wang, Xue Liu

Última atualização: 2024-08-16 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.19988

Fonte PDF: https://arxiv.org/pdf/2407.19988

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes