Aprende como a Atenção Harmonizada melhora a mistura de imagens ao focar na geometria e na textura.
Eito Ikuta, Yohan Lee, Akihiro Iohara
― 7 min ler
Ciência de ponta explicada de forma simples
Aprende como a Atenção Harmonizada melhora a mistura de imagens ao focar na geometria e na textura.
Eito Ikuta, Yohan Lee, Akihiro Iohara
― 7 min ler
Artigos mais recentes
Vijul Shah, Brian B. Moser, Ko Watanabe
― 6 min ler
Liangyu Chen, Zihao Yue, Boshen Xu
― 6 min ler
Yunxin Li, Haoyuan Shi, Baotian Hu
― 7 min ler
Viola Negroni, Davide Salvi, Paolo Bestagini
― 7 min ler
Haowei Lou, Helen Paik, Wen Hu
― 6 min ler
Cap2Sum usa legendas densas de vídeo pra melhorar a eficiência e a eficácia da sumarização de vídeos.
Cairong Zhao, Chutian Wang, Zifan Song
― 9 min ler
MaVEn melhora a capacidade da IA de processar várias imagens pra dar um raciocínio melhor.
Chaoya Jiang, Jia Hongrui, Haiyang Xu
― 7 min ler
A IA tá mudando a forma como a música é composta e vivida.
Sangjun Han, Jiwon Ham, Chaeeun Lee
― 7 min ler
Um novo método melhora o reconhecimento de emoções em conversas usando várias fontes de dados.
Cam-Van Thi Nguyen, The-Son Le, Anh-Tuan Mai
― 6 min ler
Apresentando o RMARN: uma abordagem inovadora para conectar texto e dados 3D.
Wenrui Li, Wei Han, Yandu Chen
― 6 min ler
Um novo método transforma texto em cenas 3D detalhadas sem esforço.
Wenrui Li, Fucheng Cai, Yapeng Mi
― 7 min ler
Uma nova abordagem para criar espaços virtuais acessíveis usando WebXR e A-Frame.
Giuseppe Macario
― 7 min ler
A SynthDoc cria documentos sintéticos pra aprendizado de máquina em leitura de documentos.
Chuanghao Ding, Xuejing Liu, Wei Tang
― 7 min ler
Este estudo apresenta um modelo para analisar reações emocionais a conteúdos em vídeo.
Mingwei Sun, Kunpeng Zhang
― 8 min ler
Este artigo fala sobre os benefícios de juntar sistemas de reconhecimento de voz e facial.
Aref Farhadipour, Masoumeh Chapariniya, Teodora Vukovic
― 5 min ler
Um novo jeito de criar imagens RGBA de forma fácil e eficaz.
Fabio Quattrini, Vittorio Pippi, Silvia Cascianelli
― 8 min ler
Kangaroo melhora a análise de vídeo integrando visuais, sons e texto de forma eficaz.
Jiajun Liu, Yibing Wang, Hanghang Ma
― 6 min ler
Este artigo apresenta um modelo de codificador único para melhorar a segmentação de imagens com base em descrições de texto.
Seonghoon Yu, Ilchae Jung, Byeongju Han
― 7 min ler
Novos métodos melhoram a separação de vozes em ambientes barulhentos.
Tathagata Bandyopadhyay
― 5 min ler
Um novo framework melhora a precisão das legendas de imagens e reduz erros.
Qian Cao, Xu Chen, Ruihua Song
― 6 min ler
Melhorando como as máquinas ajudam os usuários por meio de interações e respostas mais eficazes.
Dan Bohus, Sean Andrist, Yuwei Bao
― 6 min ler
Explorando humanos digitais e interfaces hápticas pra interações imersivas.
Senthil Kumar Jagatheesaperumal, Praveen Sathikumar, Harikrishnan Rajan
― 6 min ler
Novos métodos melhoram a transmissão de vídeo prevendo os dados ausentes de forma eficaz.
John Li, Shehab Sarar Ahmed, Deepak Nair
― 6 min ler
Uma estrutura para ajuste de música em tempo real em jogos e filmes.
Haoxuan Liu, Zihao Wang, Haorong Hong
― 6 min ler
O MRDAC melhora a qualidade do vídeo facial e a compressão usando múltiplos quadros de referência.
Goluck Konuko, Giuseppe Valenzise
― 7 min ler
Pesquisadores exploram ecos ultrassônicos para medir distâncias com precisão em ambientes internos tranquilos.
Junpei Honma, Akisato Kimura, Go Irie
― 7 min ler
Explorando detecção, remoção e geração de sombras na visão computacional.
Xiaowei Hu, Zhenghao Xing, Tianyu Wang
― 9 min ler
Um novo método melhora a qualidade da imagem em condições climáticas ruins usando modelos de linguagem e visão.
Jiaqi Xu, Mengyang Wu, Xiaowei Hu
― 6 min ler
Esse framework melhora a eficiência de apps multimídia enquanto protege a privacidade do usuário.
Zhongze Tang, Mengmei Ye, Yao Liu
― 8 min ler
LongLLaVA melhora a compreensão de várias imagens para várias aplicações.
Xidong Wang, Dingjie Song, Shunian Chen
― 5 min ler
O SegTalker melhora vídeos de rostos falantes com texturas realistas e edição fácil.
Lingyu Xiong, Xize Cheng, Jintao Tan
― 6 min ler
HiSC4D captura o movimento humano usando sensores vestíveis pra uma análise de interação melhor.
Yudi Dai, Zhiyong Wang, Xiping Lin
― 8 min ler
Apresentando um método pra melhorar a resposta a perguntas em vídeos com vários eventos.
Hangyu Qin, Junbin Xiao, Angela Yao
― 7 min ler
Uma visão geral dos métodos de diarização de falantes em áudio-visual, desafios e sistemas.
Victoria Mingote, Alfonso Ortega, Antonio Miguel
― 6 min ler
Esse trabalho melhora os modelos de visão-linguagem com estratégias de dados melhores e técnicas inovadoras.
Yuan Liu, Zhongyin Zhao, Ziyuan Zhuang
― 8 min ler
Um novo método melhora a identificação de objetos em imagens através da integração personalizada de visual e texto.
Ruilin Yao, Shengwu Xiong, Yichen Zhao
― 6 min ler
SimCLIP melhora a análise de memes ao combinar texto e imagens de forma eficaz.
Javier Huertas-Tato, Christos Koutlis, Symeon Papadopoulos
― 7 min ler
O conjunto de dados MIP-GAF ajuda a analisar a dinâmica social em imagens.
Surbhi Madan, Shreya Ghosh, Lownish Rai Sookha
― 6 min ler
Uma nova abordagem aprimora a conexão entre imagens e texto em VLMs.
Ali Abdollah, Amirmohammad Izadi, Armin Saghafian
― 6 min ler
Pesquisa liga pinturas à música interpretando emoções.
Tanisha Hisariya, Huan Zhang, Jinhua Liang
― 7 min ler
Um estudo revela uma nova forma de identificar emoções usando vídeo, som e texto.
Jiehui Jia, Huan Zhang, Jinhua Liang
― 6 min ler
Este artigo explora como entradas variadas podem aumentar a precisão do reconhecimento de fala.
Yiwen Guan, Viet Anh Trinh, Vivek Voleti
― 6 min ler
O LLaQo oferece um feedback detalhado para a avaliação de performances musicais, melhorando o aprendizado dos alunos.
Huan Zhang, Vincent Cheung, Hayato Nishioka
― 6 min ler
Explorando como a Starlink influencia o streaming de vídeo no mundo todo.
Liz Izhikevich, Reese Enghardt, Te-Yuan Huang
― 6 min ler
A inteligência artificial tá mudando a música com novas ferramentas e jeitos de fazer.
Megan Wei, Mateusz Modrzejewski, Aswin Sivaraman
― 7 min ler