Explore como os modelos de linguagem grande aumentam a criatividade através da geração de multimídia.

2025-08-04T21:12:12+00:00 ― 9 min ler

Visão computacional e reconhecimento de padrões Uma Nova Abordagem para Geração de Conteúdo Audiovisual

Apresentando um modelo que gera áudio e vídeo sincronizados com níveis de ruído mistos.

2025-08-04T14:45:50+00:00 ― 7 min ler

Interação Homem-Computador Avanço na Comunicação de Robôs: Solução para Discurso Sobreposto

Um novo sistema melhora as interações com robôs filtrando a fala que se sobrepõe.

2025-08-04T13:57:15+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Um Modelo Simples para Geração Audio-Visual

Esse artigo fala sobre um novo modelo simples pra gerar áudio a partir de imagens e vice-versa.

2025-08-04T09:05:45+00:00 ― 5 min ler

Aprendizagem de máquinas Avanços em Reconhecimento Automático de Fala com Modelos de Linguagem de Denoise

Modelos de linguagem de desruído melhoram a correção de erros em sistemas de reconhecimento de fala usando dados sintéticos.

2025-08-03T22:34:10+00:00 ― 9 min ler

Som NeRAF: Misturando Som e Visuais pra Realismo

NeRAF cria som e visuais sincronizados para experiências imersivas em várias áreas.

2025-08-03T07:11:05+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Abordagem Inovadora para Geração Conjunta de Áudio e Vídeo

Um novo método melhora o alinhamento de áudio e vídeo usando modelos pré-treinados.

2025-08-03T04:45:20+00:00 ― 7 min ler

Som Melhorando o Monitoramento de Juntas Parafusadas com Aprendizado Profundo

Usando deep learning pra melhorar o monitoramento de emissão acústica de juntas parafusadas.

2025-08-02T21:28:05+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões Unindo Som e Movimento na Música

Uma nova abordagem pra combinar canto e dança usando técnicas avançadas de computador.

2025-08-02T20:39:30+00:00 ― 6 min ler

Som Revisitando a Mistura de Música: Uma Nova Abordagem

Descubra um jeito novo de entender a mixagem de música através da análise de áudio.

2025-08-02T20:21:18+00:00 ― 7 min ler

Som Avanços nas Técnicas de Preenchimento de Fala

Saiba como a pintura de fala tá restaurando a qualidade do áudio em várias áreas.

2025-08-02T18:13:45+00:00 ― 8 min ler

Processamento de Áudio e Fala Reduzindo a Interferência pra uma Fala Mais Clara

Um novo sistema melhora a clareza da fala em ambientes com várias pessoas falando.

2025-08-02T14:10:50+00:00 ― 6 min ler

Processamento de Áudio e Fala Avanços na Tecnologia de Reconhecimento de Emoções na Fala

Novos métodos melhoram como as máquinas reconhecem emoções na fala.

2025-08-02T13:22:15+00:00 ― 6 min ler

Som Avanços na Geração de Vídeo para Áudio com Frieren

O modelo Frieren melhora a qualidade do áudio e a sincronização para vídeos.

2025-08-02T10:07:55+00:00 ― 7 min ler

Som Síntese de Áudio Inovadora a partir de Descrições de Texto

Um novo método gera sons únicos a partir de texto usando um sintetizador simples.

2025-08-02T08:30:45+00:00 ― 9 min ler

Computação e linguagem Avanços na Tecnologia de Tradução de Fala

Novo método melhora a tradução de fala em ambientes barulhentos mantendo a expressividade.

2025-08-01T13:53:20+00:00 ― 5 min ler

Visão computacional e reconhecimento de padrões Geração de Música Inovadora para Vídeos

Um novo método pra criar músicas que se encaixam bem no conteúdo de vídeo.

2025-08-01T13:48:30+00:00 ― 9 min ler

Processamento de Áudio e Fala Avanços na Tecnologia de Texto para Fala

Seed-TTS cria uma fala realista a partir de texto para várias aplicações.

2025-08-01T10:39:00+00:00 ― 5 min ler

Processamento de Áudio e Fala Avanços na Tecnologia de Fala pra Canto

Novo método melhora a conversão de fala em canto usando aprendizado auto-supervisionado.

2025-08-01T09:50:25+00:00 ― 8 min ler

Computação e linguagem StreamSpeech: Uma Nova Maneira de Traduzir Fala

StreamSpeech melhora a tradução de fala em tempo real com eficiência e qualidade.

2025-08-01T03:21:45+00:00 ― 5 min ler

Processamento de Áudio e Fala Apresentando o Modelo 4D em Reconhecimento de Fala

Um novo modelo melhora o reconhecimento de fala usando vários métodos de decodificação.

2025-08-01T01:44:35+00:00 ― 8 min ler

Computação e linguagem Melhorando o Reconhecimento de Fala em Árabe Através da Destilação de Conhecimento

Um estudo sobre como melhorar a ASR para dialetos árabes usando técnicas de modelagem eficientes.

2025-07-31T23:18:50+00:00 ― 6 min ler

Computação e linguagem BLSP-Emo: Um Novo Passo na IA Empática

Apresentando o BLSP-Emo, um modelo que entende fala e emoções pra interações melhores.

2025-07-31T21:41:40+00:00 ― 6 min ler

Interação Homem-Computador Revisitando a Interpretação de Dados: Estudo de Som e Visuais

Um estudo recente replica descobertas importantes sobre interpretação de dados usando som e visuais.

2025-07-31T20:04:30+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões DenseAV: Unindo Sons e Imagens

Um sistema que conecta sons com visuais, melhorando a compreensão das máquinas.

2025-07-31T10:21:30+00:00 ― 7 min ler

Processamento de Áudio e Fala Avanços na Síntese de Fala com ARDiT

Novo modelo ARDiT melhora a síntese de texto para fala e a edição de fala.

2025-07-31T07:55:45+00:00 ― 7 min ler

Computação e linguagem Aprimorando a Compreensão da IA Através da Parsing Contextual

Apresentando o SPICE, uma tarefa pra melhorar as interações da IA usando informação contextual.

2025-07-30T23:49:55+00:00 ― 9 min ler

Som Avanços no Processamento de Música Cross-Modal

A pesquisa apresenta o conjunto de dados MOSA, melhorando a compreensão dos aspectos visuais e auditivos da música.

2025-07-30T23:01:20+00:00 ― 8 min ler

Computação e linguagem Apresentando o mHuBERT-147: Um Modelo de Fala Compacto

mHuBERT-147 processa fala em várias línguas de forma eficiente.

2025-07-30T22:12:45+00:00 ― 5 min ler

Som Transformando a Legendagem de Áudio Através de Métodos Inovadores

Uma nova abordagem para legendagem de áudio reduz a dependência de dados pareados.

2025-07-30T21:24:10+00:00 ― 6 min ler

Som Avanços no Reconhecimento de Emoções Através da Fala

Novos métodos melhoram a forma como as máquinas reconhecem emoções na fala humana.

2025-07-30T18:09:50+00:00 ― 6 min ler

Aprendizagem de máquinas Desafios nas Técnicas de Marcação de Áudio

Investigando vulnerabilidades em métodos de marca d'água de áudio contra ameaças do mundo real.

2025-07-30T13:18:20+00:00 ― 9 min ler

Som Apresentando o PianoMotion10M: Um Novo Conjunto de Dados para Aprendizado de Piano

PianoMotion10M oferece movimentos de mãos detalhados pra ajudar quem tá aprendendo piano.

2025-07-30T01:09:35+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Avanços na Geração de Som a partir de Vídeo

Um novo modelo melhora a correspondência do som com as ações visuais em vídeos.

2025-07-29T23:32:25+00:00 ― 13 min ler

Som Avanços na Renderização de Áudio 3D com AVGS

Novo modelo melhora experiências de áudio realista em ambientes virtuais.

2025-07-29T20:18:05+00:00 ― 8 min ler

Processamento de Áudio e Fala Usando Tecnologia de Áudio para Rastrear Pedestres

Este estudo analisa métodos de áudio para rastrear o movimento de pedestres em áreas urbanas.

2025-07-29T17:52:20+00:00 ― 8 min ler

Processamento de Áudio e Fala Avançando o áudio Foley com o conjunto de dados MINT

Um novo conjunto de dados melhora a criação de áudio foley para conteúdo multimídia.

2025-07-29T17:03:45+00:00 ― 7 min ler

Processamento de Áudio e Fala Avanços em Reconhecimento Automático de Fala com TTA Dinâmico

Novos métodos melhoram o reconhecimento de fala em ambientes barulhentos usando técnicas adaptativas.

2025-07-29T13:49:25+00:00 ― 8 min ler

Som SPEAR: Uma Nova Abordagem para Análise de Som

O SPEAR prevê o comportamento do som em espaços 3D usando uma coleta mínima de dados.

2025-07-29T10:35:05+00:00 ― 6 min ler

Computação e linguagem Avanços na Tradução de Fala com Troca de Código

Um novo método melhora a tradução de fala em línguas misturadas para o inglês.

2025-07-29T09:46:30+00:00 ― 6 min ler

Informática - Som