MMPKUBase oferece mais de 52.000 assuntos chineses com imagens incríveis.
― 6 min ler
Ciência de ponta explicada de forma simples
MMPKUBase oferece mais de 52.000 assuntos chineses com imagens incríveis.
― 6 min ler
TEAdapter melhora a geração de música a partir de texto, dando aos usuários mais controle e criatividade.
― 5 min ler
Um novo conjunto de dados e método melhoram a localização de vídeos para narrativas complexas.
― 9 min ler
Um novo método melhora a detecção de deepfakes faciais.
― 6 min ler
O Lighthouse facilita a busca por momentos em vídeos e a detecção de destaques pra pesquisadores.
― 6 min ler
Novo modelo de aprendizado de máquina melhora as técnicas de separação de fontes de áudio.
― 6 min ler
Um sistema pra melhorar a clareza da fala em ambientes barulhentos usando óculos inteligentes.
― 6 min ler
A COM Kitchens oferece vídeos de culinária sem edição pra estudar os processos de preparo dos alimentos.
― 6 min ler
O ReSyncer melhora a qualidade do vídeo e a flexibilidade dos movimentos labiais sincronizados com o áudio.
― 6 min ler
Introduzindo a sintonia neural pra melhorar as capacidades multitarefa de grandes modelos de maneira eficaz.
― 7 min ler
Um novo método melhora as buscas de produtos em diferentes formatos de mídia.
― 6 min ler
Uma nova abordagem foca em inconsistências sutis na detecção de deepfakes.
― 7 min ler
Experimente o Festival do Barco Dragão com técnicas de remo virtuais inovadoras.
― 9 min ler
Apresentando um framework que melhora a detecção de depressão através de entrevistas estruturadas.
― 6 min ler
Um jeito novo de criar imagens claras a partir de prompts de texto complexos.
― 6 min ler
Combinar imagens e texto melhora as previsões de eventos futuros.
― 8 min ler
Esse artigo analisa como a ordem das músicas impacta as experiências de listening em álbuns.
― 8 min ler
Mu-MAE apresenta novos métodos para reconhecer atividades humanas através de várias fontes de dados.
― 8 min ler
Um novo sistema foca em combater discurso de ódio em memes de forma eficaz.
― 6 min ler
A técnica ViMo transforma vídeos do dia a dia em movimentos 3D realistas.
― 9 min ler
Explore os avanços e desafios na tecnologia de VR sem fio para múltiplos usuários.
― 8 min ler
Um novo modelo para melhorar fotos em baixa luz de forma mais rápida e eficaz.
― 6 min ler
Um novo método pra medir a percepção de profundidade em imagens 3D de VR.
― 8 min ler
Um método pra resumir vídeos de diferentes culturas e fontes de notícias.
― 6 min ler
Um novo método simplifica a edição de cenas 3D usando só uma imagem 2D.
― 7 min ler
Um novo método mira sistemas de autenticação facial múltipla de forma eficiente.
― 10 min ler
Um sistema inovador automatiza a geração de som para filmes e jogos.
― 9 min ler
Aprende como a Atenção Harmonizada melhora a mistura de imagens ao focar na geometria e na textura.
― 7 min ler
Melhorar a qualidade da imagem ajuda a fazer avaliações mais precisas do tamanho da pupila.
― 6 min ler
As referências atuais subestimam a habilidade dos modelos de conectar dados de áudio e visual.
― 6 min ler
A automação na criação de animações abre novas portas pra contar histórias e pra visuais.
― 7 min ler
Um olhar sobre as complicações de identificar faixas de áudio misturadas.
― 7 min ler
O StyleSpeech melhora os sistemas de TTS pegando os detalhes naturais da fala.
― 6 min ler
Cap2Sum usa legendas densas de vídeo pra melhorar a eficiência e a eficácia da sumarização de vídeos.
― 9 min ler
MaVEn melhora a capacidade da IA de processar várias imagens pra dar um raciocínio melhor.
― 7 min ler
A IA tá mudando a forma como a música é composta e vivida.
― 7 min ler
Um novo método melhora o reconhecimento de emoções em conversas usando várias fontes de dados.
― 6 min ler
Apresentando o RMARN: uma abordagem inovadora para conectar texto e dados 3D.
― 6 min ler
Um novo método transforma texto em cenas 3D detalhadas sem esforço.
― 7 min ler
Uma nova abordagem para criar espaços virtuais acessíveis usando WebXR e A-Frame.
― 7 min ler