Engenharia Eletrotécnica e Ciência dos Sistemas - Processamento de Áudio e Fala

RSS

Processamento de Áudio e Fala Avanços na Tecnologia de Conversão de Voz

Novo método melhora a preservação de emoções em processos de conversão de voz.

2025-09-12T00:13:40+00:00 ― 6 min ler

Processamento de Áudio e Fala Emo-StarGAN: Avançando a Tecnologia de Conversão de Voz

Novo método preserva o tom emocional na conversão de voz pra uma melhor interação humano-computador.

2025-09-11T23:25:05+00:00 ― 6 min ler

Computação e linguagem Avanços na Tradução Direta de Texto para Fala

Novos sistemas melhoram a tradução de texto para fala sem intermediários.

2025-09-11T20:59:20+00:00 ― 5 min ler

Processamento de Áudio e Fala Melhorando a Classificação dos Sons do Coração com Aumento de Dados

Pesquisadores melhoram a precisão da classificação de sons cardíacos usando métodos de aumento de dados por codec.

2025-09-11T19:22:10+00:00 ― 7 min ler

Som Desafios Emocionais Afetam Modelos de Separação de Fala

Pesquisas mostram que a fala emocional afeta o desempenho do modelo em tarefas de separação de fala.

2025-09-11T18:33:35+00:00 ― 7 min ler

Som M-AUDIODEC: Uma Nova Maneira de Comprimir Áudio

M-AUDIODEC comprime áudio multicanal mantendo a posição dos alto-falantes e a qualidade.

2025-09-11T16:56:25+00:00 ― 7 min ler

Som Avanços na Tecnologia de Tradução de Fala para Fala

Novos métodos em S2ST melhoram a qualidade da tradução mantendo a identidade do falante.

2025-09-11T16:07:50+00:00 ― 6 min ler

Som Avanço na Compressão de Áudio com Técnicas Neurais

Um novo sistema melhora a compressão de áudio espacial para um som mais claro e eficiente.

2025-09-11T15:19:15+00:00 ― 5 min ler

Processamento de Áudio e Fala MusiLingo: Unindo Música e Linguagem

Um novo sistema que liga música e linguagem pra entender melhor.

2025-09-11T14:30:40+00:00 ― 7 min ler

Processamento de Áudio e Fala Melhorando a Qualidade do Som em Dispositivos Auditivos

Pesquisas revelam novos modelos para melhorar a clareza da voz em fones de ouvido inteligentes.

2025-09-11T12:04:55+00:00 ― 6 min ler

Som Aprimorando o Reconhecimento de Sons de Pássaros com Metadados

Usar informações extras melhora nossa capacidade de identificar os cantos dos pássaros.

2025-09-11T11:16:20+00:00 ― 7 min ler

Som Melhorando a Geração de Áudio Através de Técnicas de Alinhamento de Texto

Uma nova abordagem melhora a geração de áudio ao alinhar o áudio com as descrições em texto.

2025-09-11T07:13:25+00:00 ― 6 min ler

Computação e linguagem Avanços na Tecnologia de Reconhecimento de Fala

Pesquisadores trabalham pra melhorar o reconhecimento de fala online usando modelos de espaço de estado estruturados.

2025-09-11T04:47:40+00:00 ― 6 min ler

Processamento de Áudio e Fala Detecção de Falante em Tempo Real para Reuniões Modernas

Um novo sistema melhora as experiências de reunião identificando os falantes em tempo real.

2025-09-11T03:10:30+00:00 ― 5 min ler

Processamento de Áudio e Fala Avançando Técnicas de Detecção de Fala Falsa

Novos métodos estão melhorando nossa habilidade de detectar discursos falsos de forma eficaz.

2025-09-11T02:21:55+00:00 ― 6 min ler

Processamento de Áudio e Fala Anonimizando Dados de Fala: Uma Nova Abordagem

Um método de conversão de voz que melhora a privacidade e a qualidade da fala.

2025-09-11T01:33:20+00:00 ― 8 min ler

Som Avanços em Sistemas de Detecção de Deepfake de Áudio

Novos métodos melhoram a capacidade de distinguir áudio falso do verdadeiro.

2025-09-10T22:19:00+00:00 ― 6 min ler

Som Nova Método para Detectar Fala Sintética

Um método melhora a detecção de vozes sintéticas e identifica seus criadores.

2025-09-10T20:41:50+00:00 ― 6 min ler

Som Avanços em Modelos Pequenos de Aprimoramento de Fala

Novos métodos melhoram modelos pequenos pra uma melhor melhoria de voz usando menos recursos.

2025-09-10T19:53:15+00:00 ― 6 min ler

Som Melhorando o Reconhecimento de Fala com Técnicas de Personalização

Um novo método melhora os modelos de ASR para usuários individuais usando quantização e adaptação.

2025-09-10T13:24:35+00:00 ― 7 min ler

Som Melhorando o Treinamento de Vocoders com Aprendizado Contrastivo

Novos métodos melhoram o desempenho de vocoder com dados de áudio limitados.

2025-09-10T12:36:00+00:00 ― 6 min ler

Som Entendendo a Disartria: Insights sobre Distúrbios da Fala

Um olhar sobre a disartria, como detectá-la e o papel da tecnologia.

2025-09-10T06:55:55+00:00 ― 6 min ler

Som Melhorando o Reconhecimento de Fala com Soft Prompts

Promptes suaves melhoram a tecnologia de reconhecimento de fala para um desempenho melhor em ambientes barulhentos.

2025-09-10T04:30:10+00:00 ― 6 min ler

Processamento de Áudio e Fala Melhorando a Inversão de Fala através de Aprendizado Auto-Supervisionado

A pesquisa combina aprendizado auto-supervisionado e novas técnicas de medição pra melhorar a inversão de fala.

2025-09-10T01:15:50+00:00 ― 6 min ler

Som Melhorando a Clareza na Fala com Electrolaringeal

Pesquisadores desenvolvem uma nova estrutura pra melhorar a clareza da fala pra usuários de eletrolaringe.

2025-09-09T22:50:05+00:00 ― 6 min ler

Criptografia e segurança Melhorando a Detecção de Deepfake Através de Métodos de Treinamento Diversificados

Este estudo explora estratégias de treinamento pra melhorar a detecção de áudio falso.

2025-09-09T22:01:30+00:00 ― 6 min ler

Processamento de Áudio e Fala Avanços no Reconhecimento de Fala com Modelos de Saída Precoce

Novos modelos se adaptam pra melhorar a eficiência e a rapidez do reconhecimento de fala.

2025-09-09T21:12:55+00:00 ― 6 min ler

Processamento de Áudio e Fala Apresentando RECAP: Uma Nova Fronteira em Legendas de Áudio

O RECAP usa técnicas avançadas pra gerar legendas de áudio precisas sem precisar de re-treinamento.

2025-09-09T20:24:20+00:00 ― 5 min ler

Som Fundamentos da Teoria Musical e da Harmonia

Um guia prático pra entender teoria musical através de harmonia e escalas.

2025-09-09T16:21:25+00:00 ― 8 min ler

Processamento de Áudio e Fala Melhorando Sistemas de ASR com Dados Sintéticos

Um novo método usa dados sintéticos pra melhorar sistemas de ASR em áreas desconhecidas.

2025-09-09T15:32:50+00:00 ― 7 min ler

Som Estimando a Densidade da Multidão com Som Enquanto Protege a Privacidade

Um novo método baseado em áudio estima tamanhos de multidões sem invadir a privacidade pessoal.

2025-09-09T13:55:40+00:00 ― 5 min ler

Computação e linguagem Avançando o Reconhecimento de Fala: Sistemas que Seguem Instruções

Uma nova abordagem para reconhecimento de fala melhora a interação do usuário com instruções flexíveis.

2025-09-09T08:15:35+00:00 ― 5 min ler

Som Um Novo Método para Detectar Spoofing de Voz

Uma maneira firme de identificar anomalias de áudio e combater a falsificação de voz.

2025-09-09T07:27:00+00:00 ― 6 min ler

Computação e linguagem Avanços no Reconhecimento de Emoções em Conversas

Um novo modelo melhora a compreensão das emoções durante as conversas.

2025-09-09T06:38:25+00:00 ― 7 min ler

Computação e linguagem Os símbolos de fala gerados por computador seguem a Lei de Zipf?

Este estudo investiga se os símbolos de fala aprendidos imitam os padrões de frequência das palavras.

2025-09-09T04:12:40+00:00 ― 6 min ler

Som DiCon: Uma Nova Abordagem para Síntese de Fala

Apresentando um método mais rápido para síntese de fala de alta qualidade usando modelos de difusão.

2025-09-09T03:24:05+00:00 ― 7 min ler

Processamento de Áudio e Fala HiFTNet: Avançando a Tecnologia de Texto para Fala

HiFTNet oferece uma síntese de fala mais rápida e de alta qualidade usando técnicas inovadoras e eficientes.

2025-09-09T02:35:30+00:00 ― 6 min ler

Som Avanços na Tecnologia de Conversão de Voz Usando Imagens Faciais

Novo método transforma vozes usando características faciais para várias aplicações.

2025-09-09T01:46:55+00:00 ― 10 min ler

Processamento de Áudio e Fala Apresentando o AV-SUPERB: Um Novo Padrão para Modelos Audiovisuais

AV-SUPERB avalia modelos de áudio e vídeo em várias tarefas pra melhorar o desempenho.

2025-09-08T22:32:35+00:00 ― 6 min ler

Som Melhorando a Diarização de Falantes com Informações Semânticas

Uma nova abordagem melhora a diarização de falantes ao integrar dados semânticos no processo.

2025-09-08T20:06:50+00:00 ― 6 min ler