Engenharia Eletrotécnica e Ciência dos Sistemas - Processamento de Áudio e Fala

RSS

Som Avanços na Geração de Vídeo para Áudio com Frieren

O modelo Frieren melhora a qualidade do áudio e a sincronização para vídeos.

2025-08-02T10:07:55+00:00 ― 7 min ler

Som Síntese de Áudio Inovadora a partir de Descrições de Texto

Um novo método gera sons únicos a partir de texto usando um sintetizador simples.

2025-08-02T08:30:45+00:00 ― 9 min ler

Computação e linguagem Avanços na Tecnologia de Tradução de Fala

Novo método melhora a tradução de fala em ambientes barulhentos mantendo a expressividade.

2025-08-01T13:53:20+00:00 ― 5 min ler

Processamento de Áudio e Fala Avanços na Identificação de Ragas com Novo Conjunto de Dados

Um novo conjunto de dados melhora o estudo da identificação de Raga na música indiana.

2025-08-01T12:16:10+00:00 ― 6 min ler

Processamento de Áudio e Fala Avanços na Tecnologia de Texto para Fala

Seed-TTS cria uma fala realista a partir de texto para várias aplicações.

2025-08-01T10:39:00+00:00 ― 5 min ler

Processamento de Áudio e Fala Avanços na Tecnologia de Fala pra Canto

Novo método melhora a conversão de fala em canto usando aprendizado auto-supervisionado.

2025-08-01T09:50:25+00:00 ― 8 min ler

Computação e linguagem StreamSpeech: Uma Nova Maneira de Traduzir Fala

StreamSpeech melhora a tradução de fala em tempo real com eficiência e qualidade.

2025-08-01T03:21:45+00:00 ― 5 min ler

Processamento de Áudio e Fala Apresentando o Modelo 4D em Reconhecimento de Fala

Um novo modelo melhora o reconhecimento de fala usando vários métodos de decodificação.

2025-08-01T01:44:35+00:00 ― 8 min ler

Computação e linguagem Melhorando o Reconhecimento de Fala em Árabe Através da Destilação de Conhecimento

Um estudo sobre como melhorar a ASR para dialetos árabes usando técnicas de modelagem eficientes.

2025-07-31T23:18:50+00:00 ― 6 min ler

Computação e linguagem BLSP-Emo: Um Novo Passo na IA Empática

Apresentando o BLSP-Emo, um modelo que entende fala e emoções pra interações melhores.

2025-07-31T21:41:40+00:00 ― 6 min ler

Interação Homem-Computador Revisitando a Interpretação de Dados: Estudo de Som e Visuais

Um estudo recente replica descobertas importantes sobre interpretação de dados usando som e visuais.

2025-07-31T20:04:30+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Combinando Texto e Imagens pra Geração de Música

Novo modelo gera música usando tanto informações de texto quanto visuais.

2025-07-31T12:47:15+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões DenseAV: Unindo Sons e Imagens

Um sistema que conecta sons com visuais, melhorando a compreensão das máquinas.

2025-07-31T10:21:30+00:00 ― 7 min ler

Processamento de Áudio e Fala Avanços na Síntese de Fala com ARDiT

Novo modelo ARDiT melhora a síntese de texto para fala e a edição de fala.

2025-07-31T07:55:45+00:00 ― 7 min ler

Processamento de Áudio e Fala Avanços nas Técnicas de Separação de Voz

Novos métodos melhoram a clareza na separação de vozes de misturas de áudio.

2025-07-31T04:41:25+00:00 ― 5 min ler

Computação e linguagem Aprimorando a Compreensão da IA Através da Parsing Contextual

Apresentando o SPICE, uma tarefa pra melhorar as interações da IA usando informação contextual.

2025-07-30T23:49:55+00:00 ― 9 min ler

Som Avanços no Processamento de Música Cross-Modal

A pesquisa apresenta o conjunto de dados MOSA, melhorando a compreensão dos aspectos visuais e auditivos da música.

2025-07-30T23:01:20+00:00 ― 8 min ler

Computação e linguagem Apresentando o mHuBERT-147: Um Modelo de Fala Compacto

mHuBERT-147 processa fala em várias línguas de forma eficiente.

2025-07-30T22:12:45+00:00 ― 5 min ler

Som Transformando a Legendagem de Áudio Através de Métodos Inovadores

Uma nova abordagem para legendagem de áudio reduz a dependência de dados pareados.

2025-07-30T21:24:10+00:00 ― 6 min ler

Som Avanços no Reconhecimento de Emoções Através da Fala

Novos métodos melhoram a forma como as máquinas reconhecem emoções na fala humana.

2025-07-30T18:09:50+00:00 ― 6 min ler

Processamento de Áudio e Fala Avanços na Tecnologia de Diarização de Fala Alvo

Um olhar sobre novos métodos para entender a fala sobreposta durante as conversas.

2025-07-30T14:06:55+00:00 ― 9 min ler

Aprendizagem de máquinas Desafios nas Técnicas de Marcação de Áudio

Investigando vulnerabilidades em métodos de marca d'água de áudio contra ameaças do mundo real.

2025-07-30T13:18:20+00:00 ― 9 min ler

Som Apresentando o PianoMotion10M: Um Novo Conjunto de Dados para Aprendizado de Piano

PianoMotion10M oferece movimentos de mãos detalhados pra ajudar quem tá aprendendo piano.

2025-07-30T01:09:35+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Avanços na Geração de Som a partir de Vídeo

Um novo modelo melhora a correspondência do som com as ações visuais em vídeos.

2025-07-29T23:32:25+00:00 ― 13 min ler

Som Avanços na Renderização de Áudio 3D com AVGS

Novo modelo melhora experiências de áudio realista em ambientes virtuais.

2025-07-29T20:18:05+00:00 ― 8 min ler

Processamento de Áudio e Fala Usando Tecnologia de Áudio para Rastrear Pedestres

Este estudo analisa métodos de áudio para rastrear o movimento de pedestres em áreas urbanas.

2025-07-29T17:52:20+00:00 ― 8 min ler

Processamento de Áudio e Fala Avançando o áudio Foley com o conjunto de dados MINT

Um novo conjunto de dados melhora a criação de áudio foley para conteúdo multimídia.

2025-07-29T17:03:45+00:00 ― 7 min ler

Processamento de Áudio e Fala Avanços em Reconhecimento Automático de Fala com TTA Dinâmico

Novos métodos melhoram o reconhecimento de fala em ambientes barulhentos usando técnicas adaptativas.

2025-07-29T13:49:25+00:00 ― 8 min ler

Som SPEAR: Uma Nova Abordagem para Análise de Som

O SPEAR prevê o comportamento do som em espaços 3D usando uma coleta mínima de dados.

2025-07-29T10:35:05+00:00 ― 6 min ler

Computação e linguagem Avanços na Tradução de Fala com Troca de Código

Um novo método melhora a tradução de fala em línguas misturadas para o inglês.

2025-07-29T09:46:30+00:00 ― 6 min ler

Som Melhorando a Verificação de Falantes em Comunicações de Rádio

Um novo método melhora a precisão da verificação de falantes em ambientes de rádio difíceis.

2025-07-29T08:57:55+00:00 ― 8 min ler

Som Melhorando Ataques de Backdoor em Reconhecimento de Fala

Novo método foca em mudanças de ritmo para ataques de fala discretos.

2025-07-29T08:09:20+00:00 ― 6 min ler

Som GAMA: Um Novo Modelo para Compreensão do Som

A GAMA melhora o processamento de áudio juntando informações de som e linguagem.

2025-07-29T04:55:00+00:00 ― 7 min ler

Processamento de Áudio e Fala AV-CrossNet: Melhorando o Reconhecimento de Fala em Ruído

Um novo sistema ajuda a separar a fala do barulho pra uma comunicação mais clara.

2025-07-29T03:17:50+00:00 ― 7 min ler

Processamento de Áudio e Fala GigaSpeech 2: Um Novo Conjunto de Dados para Reconhecimento de Fala

O GigaSpeech 2 oferece um montão de dados pra línguas de baixo recurso pra melhorar o reconhecimento de fala.

2025-07-29T02:29:15+00:00 ― 6 min ler

Processamento de Áudio e Fala Revolucionando o Texto-para-Fala com DiTTo-TTS

Um novo modelo melhora a tecnologia de texto pra fala com eficiência e adaptação.

2025-07-29T01:40:40+00:00 ― 7 min ler

Processamento de Áudio e Fala Novo Modelo para Produção de Fala Clara

Um método novo que otimiza a análise e a síntese de fala usando os movimentos do trato vocal.

2025-07-28T20:49:10+00:00 ― 8 min ler

Interação Homem-Computador O Impacto dos Gestos nas Explicações Virtuais

Esse estudo analisa como os gestos afetam o aprendizado com agentes virtuais.

2025-07-28T19:12:00+00:00 ― 8 min ler

Processamento de Áudio e Fala DExter: Uma Nova Abordagem para Performance Expressiva no Piano

DExter usa IA pra criar músicas de piano expressivas a partir de partituras escritas.

2025-07-28T10:17:35+00:00 ― 6 min ler

Som Diároa de Falantes em Tempo Real: Uma Visão Geral

Aprenda sobre diarização de falantes online e sua importância em várias aplicações.

2025-07-28T06:14:40+00:00 ― 7 min ler