Um novo método melhora como as imagens combinam com entradas de texto.
― 7 min ler
Ciência de ponta explicada de forma simples
Um novo método melhora como as imagens combinam com entradas de texto.
― 7 min ler
Artigos mais recentes
Artigos mais recentes
Um novo método combina desenhos e texto pra melhorar a geração de formas 3D.
― 9 min ler
Um novo modelo pra proteger os direitos dos criadores de prompts em ferramentas de IA.
― 7 min ler
Uma nova abordagem melhora a eficiência em tarefas de pré-treinamento de Visão-Linguagem.
― 7 min ler
O DiffSynth melhora a qualidade do vídeo reduzindo a piscada e melhorando a mistura de quadros.
― 6 min ler
Uma olhada em como a Otimização Minimax melhora a eficiência das Redes Neurais de Pulsos.
― 7 min ler
Jade melhora a qualidade do vídeo com base no feedback dos usuários e em técnicas de streaming adaptativo.
― 6 min ler
Um novo modelo recomenda cores com base em elementos de design e texto.
― 6 min ler
Um novo método melhora a comunicação por gestos para avatares com formas de mão únicas.
― 6 min ler
A AVQA liga elementos de áudio e visual em vídeos pra responder perguntas.
― 7 min ler
Um novo método pra criar animações faciais 3D realistas de forma rápida e eficiente.
― 6 min ler
Novos métodos melhoram a detecção de mensagens ocultas em arquivos de vídeo.
― 7 min ler
Um método pra traduzir imagens de crânios em representações realistas de animais usando prompts de texto.
― 5 min ler
Novos métodos melhoram a detecção de eventos em vídeos em streaming usando linguagem e dados históricos.
― 6 min ler
Uma nova abordagem melhora a detecção de memes prejudiciais usando perguntas direcionadas.
― 9 min ler
Explore os laços emocionais entre música e imagens com o dataset EMID.
― 6 min ler
Essa pesquisa conecta a atividade cerebral à percepção visual ao reconstruir imagens a partir dos sinais de EEG.
― 8 min ler
Descubra o impacto do ancoramento visual nas interações entre linguagem e imagem.
― 8 min ler
Um novo método aumenta a eficiência no reconhecimento de vídeo usando dados de áudio e visuais.
― 6 min ler
Um novo agente de IA melhora a eficiência e a qualidade dos testes de jogos.
― 7 min ler
A Dronevision tá revolucionando o multimedia 3D com um display do tamanho de uma mesa usando drones voadores.
― 8 min ler
Um estudo sobre sensores essenciais para o desempenho de novos drones.
― 5 min ler
Um novo framework melhora as sugestões de itens usando diferentes tipos de dados.
― 6 min ler
Descubra a EVE, um modelo que melhora a compreensão de imagens e texto.
― 7 min ler
A pesquisa foca em melhorar modelos que ligam visuais e texto através da compreensão de linguagem.
― 7 min ler
Novo modelo melhora a geração de gestos para interações mais parecidas com humanas.
― 6 min ler
Um novo método melhora a correspondência de áudio usando imagens, aumentando o realismo em ambientes de áudio.
― 8 min ler
Analisando preocupações com dados ocultos em modelos de machine learning e suas implicações de segurança.
― 8 min ler
Um conjunto de dados liga emoções a músicas MIDI analisando as letras das canções.
― 8 min ler
Uma nova abordagem melhora a precisão ao responder perguntas sobre textos em imagens.
― 6 min ler
O PROOFREAD melhora a resposta a perguntas visuais usando conhecimento de grandes modelos de linguagem.
― 7 min ler
Usando LLMs pra criar um dataset gigante pra legendagem de música.
― 7 min ler
A Rede de Difusão de Terreno melhora a criação de paisagens realistas com a participação dos usuários.
― 6 min ler
HierVST transforma vozes de forma suave, melhorando a qualidade do áudio sem precisar de muitos dados.
― 6 min ler
Uma nova abordagem transforma fotos de rostos em desenhos parecidos com humanos usando técnicas avançadas.
― 7 min ler
A pesquisa desenvolve um modelo pra medir com precisão o engajamento em conversas.
― 7 min ler
Uma nova maneira de proteger imagens RAW de manipulação.
― 5 min ler
Novo conjunto de dados e métodos melhoram a precisão na resposta de perguntas sobre vídeos.
― 7 min ler
A estrutura da UniSA unifica tarefas na análise de sentimentos pra uma melhor reconhecimento das emoções.
― 6 min ler
Um método que usa movimentos de cabeça engana com sucesso sistemas de detecção de deepfake.
― 6 min ler
Uma estrutura pra adaptação eficiente de modelos de linguagem grandes multimodais.
― 5 min ler