PiVOT melhora o rastreamento de objetos usando prompts visuais e CLIP pra uma precisão melhor.
― 6 min ler
Ciência de ponta explicada de forma simples
PiVOT melhora o rastreamento de objetos usando prompts visuais e CLIP pra uma precisão melhor.
― 6 min ler
Novos métodos melhoram o streaming de vídeo equilibrando qualidade e desempenho.
― 5 min ler
Apresentando um novo modelo e referência para avaliar tarefas de áudio múltiplo.
― 7 min ler
WildFusion melhora o mapeamento e a navegação de robôs em ambientes externos complexos usando múltiplos sensores.
― 7 min ler
Um novo método melhora a velocidade e a qualidade da compressão de imagem.
― 6 min ler
Esse estudo analisa como áudio, vídeo e texto trabalham juntos no reconhecimento de fala.
― 8 min ler
Descubra como o CCI melhora as avaliações de qualidade em multimídia.
― 7 min ler
Pesquisadores juntam sinais de áudio e visuais pra detectar mentiras com mais precisão.
― 7 min ler
Um novo framework identifica quando modelos multimodais usam dados de treinamento inadequados.
― 6 min ler
Descubra como a percepção sensorial melhora a comunicação entre culturas e áreas.
― 8 min ler
A PIAST tem uma coleção única de música de piano para os pesquisadores.
― 6 min ler
Máquinas aprendem a conectar som e visuais em espaços 3D.
― 8 min ler
Uma nova abordagem para combinar imagens e texto pra ter resultados de busca melhores.
― 5 min ler
Saiba como o TSE melhora o reconhecimento de fala em ambientes cheios usando dicas de texto.
― 6 min ler
Um sistema novo pra misturar áudios e ajudar criadores de música a inovar de boa.
― 6 min ler
Um sistema cria música em tempo real baseado em narrativas de jogos de interpretação de papéis de mesa.
― 8 min ler
Com o aumento dos deepfakes, a necessidade de uma detecção eficaz se torna crucial.
― 6 min ler
TaylorIR melhora a clareza da imagem com menos poder de computação.
― 7 min ler
MTFusion combina imagens e texto pra criar modelos 3D avançados.
― 6 min ler
Juntando gravações de áudio com partituras pra praticar melhor.
― 6 min ler
Novos métodos melhoram a qualidade e a resolução da imagem de forma significativa.
― 8 min ler
Saiba como novas técnicas de marca d'água protegem a arte digital e ideias criativas.
― 7 min ler
Novo método melhora a clareza da fala usando informações visuais do ambiente.
― 6 min ler
O TopoCode melhora a comunicação focando na estrutura de dados pra detectar erros.
― 7 min ler
Explorando os desafios e as implicações da tecnologia deepfake no cenário midiático atual.
― 8 min ler
Edite vídeos com facilidade só falando as suas mudanças.
― 6 min ler
Explore a ciência fascinante por trás dos sons de bebidas sendo servidas.
― 5 min ler
Combinando linguagem e visuais pra uma percepção de profundidade melhor.
― 6 min ler
Descubra métodos inovadores de compressão de áudio e como eles impactam o som imersivo.
― 5 min ler
Um novo método pra criar vídeos que preservam a identidade e melhoram a qualidade visual.
― 6 min ler
O conjunto de dados HARP muda a forma como a gente experiencia o som em ambientes virtuais.
― 6 min ler
Descubra como a tecnologia tá mudando os processos de avaliação de qualidade de imagem.
― 10 min ler
Formas inovadoras de lidar com dados visuais enquanto protege o meio ambiente.
― 6 min ler
Descubra como novas tecnologias transformam imagens em experiências sonoras imersivas.
― 7 min ler
Máquinas estão se destacando em encontrar defeitos nos produtos pra melhorar a qualidade.
― 6 min ler
A HAI-DEF oferece ferramentas pra facilitar o desenvolvimento de IA em aplicações de saúde.
― 9 min ler
Descubra como os SuperGaussianos melhoram a síntese de imagens para visões realistas.
― 5 min ler
Descubra como o DiM-Gestor melhora os gestos de personagens virtuais em tempo real.
― 5 min ler
LongVALE oferece um novo padrão para entender vídeos longos através de dados áudio-visuais.
― 8 min ler
Uma nova abordagem torna os modelos multimodais mais rápidos e eficientes.
― 5 min ler