Explorando detecção, remoção e geração de sombras na visão computacional.
― 9 min ler
Ciência de ponta explicada de forma simples
Explorando detecção, remoção e geração de sombras na visão computacional.
― 9 min ler
Um novo método melhora a qualidade da imagem em condições climáticas ruins usando modelos de linguagem e visão.
― 6 min ler
Esse framework melhora a eficiência de apps multimídia enquanto protege a privacidade do usuário.
― 8 min ler
LongLLaVA melhora a compreensão de várias imagens para várias aplicações.
― 5 min ler
O SegTalker melhora vídeos de rostos falantes com texturas realistas e edição fácil.
― 6 min ler
HiSC4D captura o movimento humano usando sensores vestíveis pra uma análise de interação melhor.
― 8 min ler
Apresentando um método pra melhorar a resposta a perguntas em vídeos com vários eventos.
― 7 min ler
Uma visão geral dos métodos de diarização de falantes em áudio-visual, desafios e sistemas.
― 6 min ler
Esse trabalho melhora os modelos de visão-linguagem com estratégias de dados melhores e técnicas inovadoras.
― 8 min ler
Um novo método melhora a identificação de objetos em imagens através da integração personalizada de visual e texto.
― 6 min ler
SimCLIP melhora a análise de memes ao combinar texto e imagens de forma eficaz.
― 7 min ler
O conjunto de dados MIP-GAF ajuda a analisar a dinâmica social em imagens.
― 6 min ler
Uma nova abordagem aprimora a conexão entre imagens e texto em VLMs.
― 6 min ler
Pesquisa liga pinturas à música interpretando emoções.
― 7 min ler
Um estudo revela uma nova forma de identificar emoções usando vídeo, som e texto.
― 6 min ler
Este artigo explora como entradas variadas podem aumentar a precisão do reconhecimento de fala.
― 6 min ler
O LLaQo oferece um feedback detalhado para a avaliação de performances musicais, melhorando o aprendizado dos alunos.
― 6 min ler
Explorando como a Starlink influencia o streaming de vídeo no mundo todo.
― 6 min ler
A inteligência artificial tá mudando a música com novas ferramentas e jeitos de fazer.
― 7 min ler
Melhorando a comunicação em tempo real com novos métodos de controle de congestionamento.
― 7 min ler
Novos métodos melhoram a sincronização de áudio com cenas de vídeo que mudam.
― 5 min ler
O NVLM melhora a compreensão de linguagem e visuais da IA para várias tarefas.
― 6 min ler
O método TRIM reduz os tokens de imagem em modelos de linguagem multimodal, mantendo o desempenho.
― 6 min ler
Explorando como os LLMs melhoram o raciocínio em diferentes tipos de dados.
― 9 min ler
A PDMX oferece uma coleção enorme de músicas simbólicas de domínio público pra desenvolvimento de IA.
― 7 min ler
MoRAG melhora a geração de movimento humano a partir de descrições em texto usando recuperação específica de partes.
― 5 min ler
Um novo conjunto de dados tem o objetivo de melhorar o raciocínio multimodal em modelos de linguagem.
― 8 min ler
Métodos melhorados para detecção de contornos aprimoram a modelagem CAD a partir de scans 3D.
― 8 min ler
Uma nova abordagem melhora a resposta a perguntas em vídeos por meio do reconhecimento de texto em cena.
― 7 min ler
Llama-AVSR junta áudio e vídeo pra melhorar a precisão do reconhecimento de fala.
― 8 min ler
Um novo sistema pra criar movimentos de câmera de dança sincronizados com a música.
― 6 min ler
Times competem pra melhorar os métodos de previsão de atenção em vídeos.
― 6 min ler
Um novo método que combina modelos pra melhorar a adaptação de domínio não supervisionada em tarefas de segmentação.
― 7 min ler
Um novo modelo cria áudio que combina com o vídeo, melhorando as experiências de mídia.
― 5 min ler
Um novo framework melhora a qualidade dos datasets de vídeo-linguagem através de refinamento iterativo.
― 6 min ler
Esse framework melhora as animações em tempo real ao sincronizar fala e gestos de forma suave.
― 5 min ler
Descubra como o feedback tátil melhora as experiências virtuais em várias indústrias.
― 5 min ler
Pesquisa combina IA e dispositivos vestíveis para prever agitação em pacientes com demência.
― 6 min ler
Uma nova estratégia combina treinamento generativo e discriminativo em Modelos de Visão-Linguagem.
― 5 min ler
Este artigo fala sobre como medir a satisfação dos espectadores em transmissões de vídeo ao vivo.
― 9 min ler