Aprenda sobre a Distância de Frechet na Música e seu papel na avaliação de música gerada por IA.
Jan Retkowski, Jakub Stępniak, Mateusz Modrzejewski
― 10 min ler
New Science Research Articles Everyday
Aprenda sobre a Distância de Frechet na Música e seu papel na avaliação de música gerada por IA.
Jan Retkowski, Jakub Stępniak, Mateusz Modrzejewski
― 10 min ler
Artigos mais recentes
Sudha Krishnamurthy
― 6 min ler
Zhangbin Li, Jinxing Zhou, Jing Zhang
― 7 min ler
Kexin Li, Zongxin Yang, Yi Yang
― 7 min ler
Haowei Lou, Helen Paik, Pari Delir Haghighi
― 7 min ler
Antonio Fernandez, Suzan Awinat
― 10 min ler
Novas técnicas melhoram como as máquinas reconhecem e interpretam cenas de vídeo.
Phúc H. Le Khac, Graham Healy, Alan F. Smeaton
― 8 min ler
YingSound transforma a produção de vídeo ao automatizar a geração de efeitos sonoros.
Zihao Chen, Haomin Zhang, Xinhan Di
― 7 min ler
Pesquisadores usam ecos pra marcar áudio, garantindo que os direitos dos criadores sejam protegidos.
Christopher J. Tralie, Matt Amery, Benjamin Douglas
― 8 min ler
Este estudo avalia como os modelos de linguagem reconhecem entidades musicais em texto.
Simon Hachmeier, Robert Jäschke
― 8 min ler
Descubra como as músicas de capa são identificadas no YouTube usando métodos novos.
Simon Hachmeier, Robert Jäschke
― 7 min ler
Aprenda como os padrões de voo mantêm os drones seguros e organizados.
Shuqin Zhu, Shahram Ghandeharizadeh
― 6 min ler
Descubra como drones criam exibições 3D interativas para entretenimento e saúde.
Nima Yazdani, Hamed Alimohammadzadeh, Shahram Ghandeharizadeh
― 6 min ler
Um novo método ajuda a resumir o conteúdo de vídeo de forma fácil.
Shiping Ge, Qiang Chen, Zhiwei Jiang
― 7 min ler
Um novo modelo acelera a busca de vídeos enquanto melhora a precisão.
Jinpeng Wang, Niu Lian, Jun Li
― 7 min ler
DAAN melhora como as máquinas aprendem com dados áudio-visuais em cenários zero-shot.
RunLin Yu, Yipu Gong, Wenrui Li
― 6 min ler
Transforme suas filmagens com controle de câmera melhorado e efeitos artísticos.
Xi Wang, Robin Courant, Marc Christie
― 8 min ler
Descubra como a criatividade dos jogadores tá mudando os videogames e o engajamento da galera.
Yuyue Liu, Haihan Duan, Wei Cai
― 6 min ler
Uma nova estrutura melhora vídeos de língua de sinais para uma comunicação melhor.
Shengeng Tang, Jiayi He, Dan Guo
― 7 min ler
Descubra como os sistemas de recomendação multimodais melhoram as compras online.
Rongqing Kenneth Ong, Andy W. H. Khong
― 8 min ler
Um novo sistema tá revolucionando como os designers de som criam áudio pra vídeos.
Riccardo Fosco Gramaccioni, Christian Marinoni, Emilian Postolache
― 9 min ler
Um novo método melhora a sincronia labial em vídeos dublados pra uma experiência de assistir mais natural.
Lucas Goncalves, Prashant Mathur, Xing Niu
― 8 min ler
Nova tecnologia transforma palavras faladas em linguagem de sinais pra uma comunicação melhor.
Xu Wang, Shengeng Tang, Peipei Song
― 6 min ler
Nova tecnologia combina som e imagens para melhorar a detecção de drones.
Zhenyuan Xiao, Yizhuo Yang, Guili Xu
― 7 min ler
Explorando novas tecnologias que detectam sons de fontes invisíveis.
Yuhang He, Sangyun Shin, Anoop Cherian
― 6 min ler
Uma nova abordagem prevê a qualidade da imagem tanto para humanos quanto para máquinas.
Qi Zhang, Shanshe Wang, Xinfeng Zhang
― 8 min ler
A VERSA avalia a qualidade de fala, áudio e música de forma eficaz.
Jiatong Shi, Hye-jin Shim, Jinchuan Tian
― 10 min ler
Descubra como o RDPM transforma a criação de imagens usando métodos avançados.
Xiaoping Wu, Jie Hu, Xiaoming Wei
― 9 min ler
O FACEMUG transforma a edição de fotos com ferramentas precisas para ajustes faciais.
Wanglong Lu, Jikai Wang, Xiaogang Jin
― 8 min ler
O reconhecimento dinâmico de expressões faciais transforma as interações humano-computador com análise de emoções em tempo real.
Peihao Xiang, Kaida Wu, Chaohao Lin
― 9 min ler
Combinando linguagem e vídeo pra melhorar o aprendizado em robôs.
Dejie Yang, Zijing Zhao, YangLiu
― 7 min ler
Uma nova abordagem melhora como os computadores rastreiam objetos usando visuais e texto.
X. Feng, D. Zhang, S. Hu
― 6 min ler
Um novo modelo pra gerar danças em grupo sincronizadas e naturais.
Kaixing Yang, Xulong Tang, Haoyu Wu
― 10 min ler
Os assistentes de áudio estão ficando mais espertos com o AQA-K, melhorando as respostas através do conhecimento.
Abhirama Subramanyam Penamakuri, Kiran Chhatre, Akshat Jain
― 7 min ler
Descubra como a restauração de rostos em fotos borradas traz clareza a imagens desfocadas.
Wanglong Lu, Jikai Wang, Tao Wang
― 6 min ler
Métodos inovadores estão surgindo para combater o aumento dos deepfakes realistas.
Yi Zhang, Weize Gao, Changtao Miao
― 8 min ler
Descubra como o ChartAdapter transforma gráficos complexos em resumos claros.
Peixin Xu, Yujuan Ding, Wenqi Fan
― 7 min ler