Informática - Multimédia

RSS

Computação e linguagem Apresentando o MMPKUBase: Um Gráfico de Conhecimento Chinês

MMPKUBase oferece mais de 52.000 assuntos chineses com imagens incríveis.

2025-07-02T17:32:30+00:00 ― 6 min ler

Som Revolucionando a Criação Musical com o TEAdapter

TEAdapter melhora a geração de música a partir de texto, dando aos usuários mais controle e criatividade.

2025-07-02T17:17:05+00:00 ― 5 min ler

Visão computacional e reconhecimento de padrões Apresentando o SynopGround: Uma Nova Abordagem para Ancoragem de Vídeo

Um novo conjunto de dados e método melhoram a localização de vídeos para narrativas complexas.

2025-07-02T17:08:48+00:00 ― 9 min ler

Visão computacional e reconhecimento de padrões Avançando a Detecção de Deepfake com MkfaNet

Um novo método melhora a detecção de deepfakes faciais.

2025-07-02T17:00:54+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Lighthouse: Uma Ferramenta para Recuperação de Momentos em Vídeo e Detecção de Destaques

O Lighthouse facilita a busca por momentos em vídeos e a detecção de destaques pra pesquisadores.

2025-07-02T07:08:24+00:00 ― 6 min ler

Som Avanços na Separação de Fonte de Áudio com RQ-VAE

Novo modelo de aprendizado de máquina melhora as técnicas de separação de fontes de áudio.

2025-07-02T05:08:20+00:00 ― 6 min ler

Som Nova Método Melhora a Clareza da Fala em Óculos Inteligentes

Um sistema pra melhorar a clareza da fala em ambientes barulhentos usando óculos inteligentes.

2025-07-02T02:42:35+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Novo Conjunto de Dados Busca Melhorar Análise de Vídeos de Culinária

A COM Kitchens oferece vídeos de culinária sem edição pra estudar os processos de preparo dos alimentos.

2025-07-01T20:28:30+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões ReSyncer: Uma Nova Abordagem para Dublagem de Lábios

O ReSyncer melhora a qualidade do vídeo e a flexibilidade dos movimentos labiais sincronizados com o áudio.

2025-07-01T12:18:42+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Ajuste Neural: Uma Nova Abordagem para Aprendizado Multitarefa

Introduzindo a sintonia neural pra melhorar as capacidades multitarefa de grandes modelos de maneira eficaz.

2025-07-01T09:09:06+00:00 ― 7 min ler

Multimédia Avanços na Recuperação de Produtos em E-Commerce

Um novo método melhora as buscas de produtos em diferentes formatos de mídia.

2025-07-01T08:45:24+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Melhorando a Detecção de Deepfakes com Detalhes Finos

Uma nova abordagem foca em inconsistências sutis na detecção de deepfakes.

2025-07-01T04:02:15+00:00 ― 7 min ler

Multimédia MetaDragonBoat: Um Mergulho Virtual na Cultura

Experimente o Festival do Barco Dragão com técnicas de remo virtuais inovadoras.

2025-07-01T01:54:36+00:00 ― 9 min ler

Inteligência Artificial HiQuE: Uma Nova Abordagem para Detectar Depressão

Apresentando um framework que melhora a detecção de depressão através de entrevistas estruturadas.

2025-06-30T20:14:54+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Conductor de Conceito: Uma Nova Abordagem para Geração de Imagens

Um jeito novo de criar imagens claras a partir de prompts de texto complexos.

2025-06-30T20:07:00+00:00 ― 6 min ler

Multimédia Utilizando Imagens para Previsão de Eventos

Combinar imagens e texto melhora as previsões de eventos futuros.

2025-06-30T08:47:36+00:00 ― 8 min ler

Multimédia A Arte da Sequência de Músicas em Álbuns

Esse artigo analisa como a ordem das músicas impacta as experiências de listening em álbuns.

2025-06-30T08:31:48+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões Avanços no Reconhecimento de Atividades Humanas Usando Mu-MAE

Mu-MAE apresenta novos métodos para reconhecer atividades humanas através de várias fontes de dados.

2025-06-30T05:53:48+00:00 ― 8 min ler

Inteligência Artificial Abordando a Discurso de Ódio em Memes com o HateSieve

Um novo sistema foca em combater discurso de ódio em memes de forma eficaz.

2025-06-29T11:12:00+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Avançando a Geração de Movimento 3D a partir de Vídeos Casuais

A técnica ViMo transforma vídeos do dia a dia em movimentos 3D realistas.

2025-06-29T07:54:30+00:00 ― 9 min ler

Teoria da Informação Navegando Desafios em VR Interativa Sem Fio Multiusuário

Explore os avanços e desafios na tecnologia de VR sem fio para múltiplos usuários.

2025-06-29T01:07:44+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões ExpoMamba: Transformando a Melhoria de Imagens em Baixa Luz

Um novo modelo para melhorar fotos em baixa luz de forma mais rápida e eficaz.

2025-06-28T21:47:10+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Avaliando a Qualidade de Profundidade em Imagens 3D para VR

Um novo método pra medir a percepção de profundidade em imagens 3D de VR.

2025-06-28T11:15:35+00:00 ― 8 min ler

Multimédia Analisando notícias globais através de conteúdo em vídeo

Um método pra resumir vídeos de diferentes culturas e fontes de notícias.

2025-06-28T03:36:00+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Simplificando a Edição de Cenas 3D com Imagens 2D

Um novo método simplifica a edição de cenas 3D usando só uma imagem 2D.

2025-06-27T23:54:48+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Avanços em Ataques Adversariais Multi-tarefas em Sistemas de Autenticação Facial

Um novo método mira sistemas de autenticação facial múltipla de forma eficiente.

2025-06-27T11:00:36+00:00 ― 10 min ler

Som Vídeo-Foley: Transformando o Design Sonoro em Multimídia

Um sistema inovador automatiza a geração de som para filmes e jogos.

2025-06-26T23:37:55+00:00 ― 9 min ler

Visão computacional e reconhecimento de padrões Harmonizando Atenção: Uma Nova Abordagem para Mistura de Imagens

Aprende como a Atenção Harmonizada melhora a mistura de imagens ao focar na geometria e na textura.

2025-06-26T03:32:30+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Melhorando a Medição do Tamanho da Pupila a partir de Imagens de Webcam

Melhorar a qualidade da imagem ajuda a fazer avaliações mais precisas do tamanho da pupila.

2025-06-26T00:30:48+00:00 ― 6 min ler

Multimédia Repensando os Marcos de Localização de Fontes Audiovisuais

As referências atuais subestimam a habilidade dos modelos de conectar dados de áudio e visual.

2025-06-25T16:03:10+00:00 ― 6 min ler

Computação e linguagem A IA Toma a Frente na Produção de Animação

A automação na criação de animações abre novas portas pra contar histórias e pra visuais.

2025-06-25T13:58:48+00:00 ― 7 min ler

Som Desafios em Detectar Sinais de Fala Parcialmente Falsos

Um olhar sobre as complicações de identificar faixas de áudio misturadas.

2025-06-25T06:20:10+00:00 ― 7 min ler

Som StyleSpeech: O Futuro da Tecnologia de Texto para Fala

O StyleSpeech melhora os sistemas de TTS pegando os detalhes naturais da fala.

2025-06-24T14:08:30+00:00 ― 6 min ler

Multimédia Cap2Sum: Uma Nova Abordagem para Resumo de Vídeo

Cap2Sum usa legendas densas de vídeo pra melhorar a eficiência e a eficácia da sumarização de vídeos.

2025-06-23T23:55:42+00:00 ― 9 min ler

Computação e linguagem Apresentando o MaVEn: Uma Nova Abordagem para Entender Várias Imagens

MaVEn melhora a capacidade da IA de processar várias imagens pra dar um raciocínio melhor.

2025-06-23T15:38:00+00:00 ― 7 min ler

Som Inteligência Artificial e o Futuro da Criação Musical

A IA tá mudando a forma como a música é composta e vivida.

2025-06-23T08:10:55+00:00 ― 7 min ler

Multimédia Equilibrando Emoções: Uma Nova Abordagem no ERC

Um novo método melhora o reconhecimento de emoções em conversas usando várias fontes de dados.

2025-06-23T01:01:06+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Novo Método para Recuperação Texto-3D Usando RMARN

Apresentando o RMARN: uma abordagem inovadora para conectar texto e dados 3D.

2025-06-22T22:23:06+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões SceneDreamer360: Avançando na Criação de Cenas 3D a partir de Texto

Um novo método transforma texto em cenas 3D detalhadas sem esforço.

2025-06-22T22:15:12+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Criando um Metaverso Aberto para Todos

Uma nova abordagem para criar espaços virtuais acessíveis usando WebXR e A-Frame.

2025-06-22T18:26:06+00:00 ― 7 min ler