Um novo método simplifica a edição de cenas 3D usando só uma imagem 2D.
― 7 min ler
Ciência de ponta explicada de forma simples
Um novo método simplifica a edição de cenas 3D usando só uma imagem 2D.
― 7 min ler
Um novo método mira sistemas de autenticação facial múltipla de forma eficiente.
― 10 min ler
Um sistema inovador automatiza a geração de som para filmes e jogos.
― 9 min ler
Aprende como a Atenção Harmonizada melhora a mistura de imagens ao focar na geometria e na textura.
― 7 min ler
Melhorar a qualidade da imagem ajuda a fazer avaliações mais precisas do tamanho da pupila.
― 6 min ler
As referências atuais subestimam a habilidade dos modelos de conectar dados de áudio e visual.
― 6 min ler
A automação na criação de animações abre novas portas pra contar histórias e pra visuais.
― 7 min ler
Um olhar sobre as complicações de identificar faixas de áudio misturadas.
― 7 min ler
O StyleSpeech melhora os sistemas de TTS pegando os detalhes naturais da fala.
― 6 min ler
Cap2Sum usa legendas densas de vídeo pra melhorar a eficiência e a eficácia da sumarização de vídeos.
― 9 min ler
MaVEn melhora a capacidade da IA de processar várias imagens pra dar um raciocínio melhor.
― 7 min ler
A IA tá mudando a forma como a música é composta e vivida.
― 7 min ler
Um novo método melhora o reconhecimento de emoções em conversas usando várias fontes de dados.
― 6 min ler
Apresentando o RMARN: uma abordagem inovadora para conectar texto e dados 3D.
― 6 min ler
Um novo método transforma texto em cenas 3D detalhadas sem esforço.
― 7 min ler
Uma nova abordagem para criar espaços virtuais acessíveis usando WebXR e A-Frame.
― 7 min ler
A SynthDoc cria documentos sintéticos pra aprendizado de máquina em leitura de documentos.
― 7 min ler
Este estudo apresenta um modelo para analisar reações emocionais a conteúdos em vídeo.
― 8 min ler
Este artigo fala sobre os benefícios de juntar sistemas de reconhecimento de voz e facial.
― 5 min ler
Um novo jeito de criar imagens RGBA de forma fácil e eficaz.
― 8 min ler
Kangaroo melhora a análise de vídeo integrando visuais, sons e texto de forma eficaz.
― 6 min ler
Este artigo apresenta um modelo de codificador único para melhorar a segmentação de imagens com base em descrições de texto.
― 7 min ler
Novos métodos melhoram a separação de vozes em ambientes barulhentos.
― 5 min ler
Um novo framework melhora a precisão das legendas de imagens e reduz erros.
― 6 min ler
Melhorando como as máquinas ajudam os usuários por meio de interações e respostas mais eficazes.
― 6 min ler
Explorando humanos digitais e interfaces hápticas pra interações imersivas.
― 6 min ler
Novos métodos melhoram a transmissão de vídeo prevendo os dados ausentes de forma eficaz.
― 6 min ler
Uma estrutura para ajuste de música em tempo real em jogos e filmes.
― 6 min ler
O MRDAC melhora a qualidade do vídeo facial e a compressão usando múltiplos quadros de referência.
― 7 min ler
Pesquisadores exploram ecos ultrassônicos para medir distâncias com precisão em ambientes internos tranquilos.
― 7 min ler
Explorando detecção, remoção e geração de sombras na visão computacional.
― 9 min ler
Um novo método melhora a qualidade da imagem em condições climáticas ruins usando modelos de linguagem e visão.
― 6 min ler
Esse framework melhora a eficiência de apps multimídia enquanto protege a privacidade do usuário.
― 8 min ler
LongLLaVA melhora a compreensão de várias imagens para várias aplicações.
― 5 min ler
O SegTalker melhora vídeos de rostos falantes com texturas realistas e edição fácil.
― 6 min ler
HiSC4D captura o movimento humano usando sensores vestíveis pra uma análise de interação melhor.
― 8 min ler
Apresentando um método pra melhorar a resposta a perguntas em vídeos com vários eventos.
― 7 min ler
Uma visão geral dos métodos de diarização de falantes em áudio-visual, desafios e sistemas.
― 6 min ler
Esse trabalho melhora os modelos de visão-linguagem com estratégias de dados melhores e técnicas inovadoras.
― 8 min ler
Um novo método melhora a identificação de objetos em imagens através da integração personalizada de visual e texto.
― 6 min ler