Engenharia Eletrotécnica e Ciência dos Sistemas - Processamento de Áudio e Fala

RSS

Computação e linguagem Melhorando o Reconhecimento de Fala em Sala de Aula com Pré-treinamento Contínuo

O reconhecimento de fala melhorado para salas de aula usando técnicas de treinamento avançadas melhora a aprendizagem.

2025-08-05T19:06:15+00:00 ― 8 min ler

Aprendizagem de máquinas Abordando a Alucinação em Modelos de IA

Entender e minimizar alucinações em IA pra um desempenho mais confiável.

2025-08-05T17:29:05+00:00 ― 9 min ler

Som Novo Método Usa Gráficos para Análise Musical

Uma nova abordagem usa redes neurais convolucionais em grafos pra analisar dados musicais de forma eficiente.

2025-08-05T15:51:55+00:00 ― 10 min ler

Processamento de Áudio e Fala Avanços nas Técnicas de Correspondência Áudio-Texto

Novos métodos melhoram as conexões entre clipes de áudio e descrições em texto.

2025-08-05T14:14:45+00:00 ― 6 min ler

Processamento de Áudio e Fala Melhorando a Transcrição da Voz Cantada com o Modelo ROSVOT

O ROSVOT melhora a precisão na transcrição de vozes cantando, mesmo em ambientes barulhentos.

2025-08-05T10:11:50+00:00 ― 7 min ler

Processamento de Áudio e Fala Melhorando a Clareza da Voz em Ambientes Barulhentos

Novas técnicas melhoram a reconstrução de voz em ambientes desafiadores usando dados limitados.

2025-08-05T02:06:00+00:00 ― 9 min ler

Visão computacional e reconhecimento de padrões Uma Nova Abordagem para Geração de Conteúdo Audiovisual

Apresentando um modelo que gera áudio e vídeo sincronizados com níveis de ruído mistos.

2025-08-04T14:45:50+00:00 ― 7 min ler

Interação Homem-Computador Avanço na Comunicação de Robôs: Solução para Discurso Sobreposto

Um novo sistema melhora as interações com robôs filtrando a fala que se sobrepõe.

2025-08-04T13:57:15+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Um Modelo Simples para Geração Audio-Visual

Esse artigo fala sobre um novo modelo simples pra gerar áudio a partir de imagens e vice-versa.

2025-08-04T09:05:45+00:00 ― 5 min ler

Aprendizagem de máquinas Avanços em Reconhecimento Automático de Fala com Modelos de Linguagem de Denoise

Modelos de linguagem de desruído melhoram a correção de erros em sistemas de reconhecimento de fala usando dados sintéticos.

2025-08-03T22:34:10+00:00 ― 9 min ler

Processamento de Áudio e Fala Avanços em Melhoria de Fala com VPIDM

O novo modelo VPIDM melhora a clareza da fala em ambientes barulhentos.

2025-08-03T16:54:05+00:00 ― 7 min ler

Som NeRAF: Misturando Som e Visuais pra Realismo

NeRAF cria som e visuais sincronizados para experiências imersivas em várias áreas.

2025-08-03T07:11:05+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Abordagem Inovadora para Geração Conjunta de Áudio e Vídeo

Um novo método melhora o alinhamento de áudio e vídeo usando modelos pré-treinados.

2025-08-03T04:45:20+00:00 ― 7 min ler

Aprendizagem de máquinas Zipper: Uma Nova Abordagem para IA Multimodal

O Zipper combina diferentes tipos de dados de forma eficaz pra criar modelos de IA mais inteligentes.

2025-08-03T03:08:10+00:00 ― 7 min ler

Som Melhorando o Monitoramento de Juntas Parafusadas com Aprendizado Profundo

Usando deep learning pra melhorar o monitoramento de emissão acústica de juntas parafusadas.

2025-08-02T21:28:05+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões Unindo Som e Movimento na Música

Uma nova abordagem pra combinar canto e dança usando técnicas avançadas de computador.

2025-08-02T20:39:30+00:00 ― 6 min ler

Som Avanços nas Técnicas de Preenchimento de Fala

Saiba como a pintura de fala tá restaurando a qualidade do áudio em várias áreas.

2025-08-02T18:13:45+00:00 ― 8 min ler

Processamento de Áudio e Fala Reduzindo a Interferência pra uma Fala Mais Clara

Um novo sistema melhora a clareza da fala em ambientes com várias pessoas falando.

2025-08-02T14:10:50+00:00 ― 6 min ler

Processamento de Áudio e Fala Avanços na Tecnologia de Reconhecimento de Emoções na Fala

Novos métodos melhoram como as máquinas reconhecem emoções na fala.

2025-08-02T13:22:15+00:00 ― 6 min ler

Som Avanços na Geração de Vídeo para Áudio com Frieren

O modelo Frieren melhora a qualidade do áudio e a sincronização para vídeos.

2025-08-02T10:07:55+00:00 ― 7 min ler

Som Síntese de Áudio Inovadora a partir de Descrições de Texto

Um novo método gera sons únicos a partir de texto usando um sintetizador simples.

2025-08-02T08:30:45+00:00 ― 9 min ler

Computação e linguagem Avanços na Tecnologia de Tradução de Fala

Novo método melhora a tradução de fala em ambientes barulhentos mantendo a expressividade.

2025-08-01T13:53:20+00:00 ― 5 min ler

Processamento de Áudio e Fala Avanços na Identificação de Ragas com Novo Conjunto de Dados

Um novo conjunto de dados melhora o estudo da identificação de Raga na música indiana.

2025-08-01T12:16:10+00:00 ― 6 min ler

Processamento de Áudio e Fala Avanços na Tecnologia de Texto para Fala

Seed-TTS cria uma fala realista a partir de texto para várias aplicações.

2025-08-01T10:39:00+00:00 ― 5 min ler

Processamento de Áudio e Fala Avanços na Tecnologia de Fala pra Canto

Novo método melhora a conversão de fala em canto usando aprendizado auto-supervisionado.

2025-08-01T09:50:25+00:00 ― 8 min ler

Computação e linguagem StreamSpeech: Uma Nova Maneira de Traduzir Fala

StreamSpeech melhora a tradução de fala em tempo real com eficiência e qualidade.

2025-08-01T03:21:45+00:00 ― 5 min ler

Processamento de Áudio e Fala Apresentando o Modelo 4D em Reconhecimento de Fala

Um novo modelo melhora o reconhecimento de fala usando vários métodos de decodificação.

2025-08-01T01:44:35+00:00 ― 8 min ler

Computação e linguagem Melhorando o Reconhecimento de Fala em Árabe Através da Destilação de Conhecimento

Um estudo sobre como melhorar a ASR para dialetos árabes usando técnicas de modelagem eficientes.

2025-07-31T23:18:50+00:00 ― 6 min ler

Computação e linguagem BLSP-Emo: Um Novo Passo na IA Empática

Apresentando o BLSP-Emo, um modelo que entende fala e emoções pra interações melhores.

2025-07-31T21:41:40+00:00 ― 6 min ler

Interação Homem-Computador Revisitando a Interpretação de Dados: Estudo de Som e Visuais

Um estudo recente replica descobertas importantes sobre interpretação de dados usando som e visuais.

2025-07-31T20:04:30+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Combinando Texto e Imagens pra Geração de Música

Novo modelo gera música usando tanto informações de texto quanto visuais.

2025-07-31T12:47:15+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões DenseAV: Unindo Sons e Imagens

Um sistema que conecta sons com visuais, melhorando a compreensão das máquinas.

2025-07-31T10:21:30+00:00 ― 7 min ler

Processamento de Áudio e Fala Avanços na Síntese de Fala com ARDiT

Novo modelo ARDiT melhora a síntese de texto para fala e a edição de fala.

2025-07-31T07:55:45+00:00 ― 7 min ler

Processamento de Áudio e Fala Avanços nas Técnicas de Separação de Voz

Novos métodos melhoram a clareza na separação de vozes de misturas de áudio.

2025-07-31T04:41:25+00:00 ― 5 min ler

Computação e linguagem Aprimorando a Compreensão da IA Através da Parsing Contextual

Apresentando o SPICE, uma tarefa pra melhorar as interações da IA usando informação contextual.

2025-07-30T23:49:55+00:00 ― 9 min ler

Som Avanços no Processamento de Música Cross-Modal

A pesquisa apresenta o conjunto de dados MOSA, melhorando a compreensão dos aspectos visuais e auditivos da música.

2025-07-30T23:01:20+00:00 ― 8 min ler

Computação e linguagem Apresentando o mHuBERT-147: Um Modelo de Fala Compacto

mHuBERT-147 processa fala em várias línguas de forma eficiente.

2025-07-30T22:12:45+00:00 ― 5 min ler

Som Transformando a Legendagem de Áudio Através de Métodos Inovadores

Uma nova abordagem para legendagem de áudio reduz a dependência de dados pareados.

2025-07-30T21:24:10+00:00 ― 6 min ler

Som Avanços no Reconhecimento de Emoções Através da Fala

Novos métodos melhoram a forma como as máquinas reconhecem emoções na fala humana.

2025-07-30T18:09:50+00:00 ― 6 min ler

Processamento de Áudio e Fala Avanços na Tecnologia de Diarização de Fala Alvo

Um olhar sobre novos métodos para entender a fala sobreposta durante as conversas.

2025-07-30T14:06:55+00:00 ― 9 min ler