Uma nova abordagem para criar espaços virtuais acessíveis usando WebXR e A-Frame.
― 7 min ler
Ciência de ponta explicada de forma simples
Uma nova abordagem para criar espaços virtuais acessíveis usando WebXR e A-Frame.
― 7 min ler
A SynthDoc cria documentos sintéticos pra aprendizado de máquina em leitura de documentos.
― 7 min ler
Este estudo apresenta um modelo para analisar reações emocionais a conteúdos em vídeo.
― 8 min ler
Este artigo fala sobre os benefícios de juntar sistemas de reconhecimento de voz e facial.
― 5 min ler
Um novo jeito de criar imagens RGBA de forma fácil e eficaz.
― 8 min ler
Kangaroo melhora a análise de vídeo integrando visuais, sons e texto de forma eficaz.
― 6 min ler
Este artigo apresenta um modelo de codificador único para melhorar a segmentação de imagens com base em descrições de texto.
― 7 min ler
Novos métodos melhoram a separação de vozes em ambientes barulhentos.
― 5 min ler
Um novo framework melhora a precisão das legendas de imagens e reduz erros.
― 6 min ler
Melhorando como as máquinas ajudam os usuários por meio de interações e respostas mais eficazes.
― 6 min ler
Explorando humanos digitais e interfaces hápticas pra interações imersivas.
― 6 min ler
Novos métodos melhoram a transmissão de vídeo prevendo os dados ausentes de forma eficaz.
― 6 min ler
Uma estrutura para ajuste de música em tempo real em jogos e filmes.
― 6 min ler
O MRDAC melhora a qualidade do vídeo facial e a compressão usando múltiplos quadros de referência.
― 7 min ler
Pesquisadores exploram ecos ultrassônicos para medir distâncias com precisão em ambientes internos tranquilos.
― 7 min ler
Explorando detecção, remoção e geração de sombras na visão computacional.
― 9 min ler
Um novo método melhora a qualidade da imagem em condições climáticas ruins usando modelos de linguagem e visão.
― 6 min ler
Esse framework melhora a eficiência de apps multimídia enquanto protege a privacidade do usuário.
― 8 min ler
LongLLaVA melhora a compreensão de várias imagens para várias aplicações.
― 5 min ler
O SegTalker melhora vídeos de rostos falantes com texturas realistas e edição fácil.
― 6 min ler
HiSC4D captura o movimento humano usando sensores vestíveis pra uma análise de interação melhor.
― 8 min ler
Apresentando um método pra melhorar a resposta a perguntas em vídeos com vários eventos.
― 7 min ler
Uma visão geral dos métodos de diarização de falantes em áudio-visual, desafios e sistemas.
― 6 min ler
Esse trabalho melhora os modelos de visão-linguagem com estratégias de dados melhores e técnicas inovadoras.
― 8 min ler
Um novo método melhora a identificação de objetos em imagens através da integração personalizada de visual e texto.
― 6 min ler
SimCLIP melhora a análise de memes ao combinar texto e imagens de forma eficaz.
― 7 min ler
O conjunto de dados MIP-GAF ajuda a analisar a dinâmica social em imagens.
― 6 min ler
Uma nova abordagem aprimora a conexão entre imagens e texto em VLMs.
― 6 min ler
Pesquisa liga pinturas à música interpretando emoções.
― 7 min ler
Um estudo revela uma nova forma de identificar emoções usando vídeo, som e texto.
― 6 min ler
Este artigo explora como entradas variadas podem aumentar a precisão do reconhecimento de fala.
― 6 min ler
O LLaQo oferece um feedback detalhado para a avaliação de performances musicais, melhorando o aprendizado dos alunos.
― 6 min ler
Explorando como a Starlink influencia o streaming de vídeo no mundo todo.
― 6 min ler
A inteligência artificial tá mudando a música com novas ferramentas e jeitos de fazer.
― 7 min ler
Melhorando a comunicação em tempo real com novos métodos de controle de congestionamento.
― 7 min ler
Novos métodos melhoram a sincronização de áudio com cenas de vídeo que mudam.
― 5 min ler
O NVLM melhora a compreensão de linguagem e visuais da IA para várias tarefas.
― 6 min ler
O método TRIM reduz os tokens de imagem em modelos de linguagem multimodal, mantendo o desempenho.
― 6 min ler
Explorando como os LLMs melhoram o raciocínio em diferentes tipos de dados.
― 9 min ler
A PDMX oferece uma coleção enorme de músicas simbólicas de domínio público pra desenvolvimento de IA.
― 7 min ler