Novos métodos melhoram a qualidade da fala sintetizada usando aprendizado auto-supervisionado.

2025-09-30T17:37:25+00:00 ― 6 min ler

Computação e linguagem Melhorando o Reconhecimento de Voz com Aumento de Palavras-Chave

Um novo método melhora a transcrição de palavras-chave raras em conversas de negócios.

2025-09-30T10:20:10+00:00 ― 7 min ler

Som Avançando o Reconhecimento de Fala com Aprendizado Federado

Aprendizado Federado melhora o reconhecimento de fala enquanto mantém os dados dos usuários privados.

2025-09-30T08:43:00+00:00 ― 6 min ler

Som MusicLDM: Uma Nova Abordagem para Geração de Música a partir de Texto

MusicLDM transforma texto em música original, oferecendo novas maneiras de ser criativo.

2025-09-30T05:28:40+00:00 ― 8 min ler

Som Melhorando Técnicas de Extração de Melodia Vocal com Deep Learning

Novos métodos melhoram a precisão de extrair melodias cantadas de áudios mistos.

2025-09-30T01:25:45+00:00 ― 8 min ler

Computação e linguagem Avanços na Tecnologia de Legendas de Áudio

Novos métodos buscam melhorar a legendagem de áudio pra ter mais precisão e eficiência.

2025-09-30T00:25:00+00:00 ― 6 min ler

Som Avanços nas Técnicas de Melhoria de Áudio

Novo modelo melhora a clareza da fala em ambientes barulhentos usando métodos inovadores.

2025-09-29T22:11:25+00:00 ― 6 min ler

Som Analisando Canções Folclóricas Coreanas Através da Tecnologia

Um estudo sobre músicas folclóricas coreanas usando métodos analíticos modernos.

2025-09-29T21:22:50+00:00 ― 9 min ler

Gráficos DiffDance: Uma Nova Era na Geração de Dança

DiffDance cria sequências de dança detalhadas que combinam bem com a música.

2025-09-29T16:31:20+00:00 ― 7 min ler

Som Abordando o preconceito de gênero na transcrição de voz cantada

Analisando a justiça na tecnologia de transcrição de voz cantada entre os gêneros.

2025-09-29T15:42:45+00:00 ― 9 min ler

Som Avanços na Personalização de Hotwords para Sistemas ASR

SeACo-Paraformer traz flexibilidade e precisão pra tecnologia de reconhecimento de fala.

2025-09-29T14:05:35+00:00 ― 7 min ler

Processamento de Áudio e Fala Analisando a Qualidade da Voz e Seu Impacto

Este estudo explora métodos de classificação de qualidade de voz e sua importância na comunicação.

2025-09-29T12:28:25+00:00 ― 5 min ler

Processamento de Áudio e Fala Avanços na Tecnologia de Controle Ativo de Ruído

Aprenda como novos algoritmos melhoram as técnicas de cancelamento de ruído para várias aplicações.

2025-09-29T05:59:45+00:00 ― 5 min ler

Processamento de Áudio e Fala Nova Ferramenta Mede a Qualidade do Áudio com Insights de Vídeo

AudioVMAF combina métricas de vídeo pra melhorar a avaliação da qualidade do áudio.

2025-09-29T01:56:50+00:00 ― 7 min ler

Som Avanços na Detecção de Áudio Falso com RAWM

Um novo método melhora a detecção de áudio falso usando modificação de peso adaptativa.

2025-09-29T01:08:15+00:00 ― 6 min ler

Criptografia e segurança A Necessidade Crescente de Steganálise na Segurança da Informação

A esteganálise ajuda a detectar mensagens escondidas em multimídia, garantindo uma comunicação segura.

2025-09-28T23:31:05+00:00 ― 5 min ler

Multimédia TranSTYLer: Um Salto na Comunicação Virtual

Transformando gestos para agentes virtuais sem perder o significado.

2025-09-28T18:39:35+00:00 ― 6 min ler

Som Avanços na Localização de Fontes Sonoras Usando Redes Neurais

Explorando como redes neurais melhoram a precisão da localização de fontes sonoras.

2025-09-28T12:10:55+00:00 ― 7 min ler

Computação e linguagem Melhorando o Reconhecimento de Fala em Punjabi com Métodos de Auto-Treinamento

Pesquisadores melhoram o reconhecimento automático de fala para Punjabi usando técnicas inovadoras de auto-treinamento.

2025-09-28T08:56:35+00:00 ― 7 min ler

Som Avanços no Reconhecimento de Fala de Falantes Específicos

Novo modelo melhora o reconhecimento de fala em ambientes barulhentos ao focar em um único falante.

2025-09-28T08:08:00+00:00 ― 4 min ler

Som Equilibrando Privacidade e Monitoramento de Áudio Inteligente

Novos métodos buscam proteger a privacidade da fala em sistemas de monitoramento de áudio.

2025-09-28T06:30:50+00:00 ― 6 min ler

Computação e linguagem Avançando a Síntese de Fala Expressiva com Novo Conjunto de Dados

Um novo conjunto de dados melhora a síntese de fala ao capturar a expressão emocional sem depender de texto.

2025-09-27T18:22:05+00:00 ― 6 min ler

Processamento de Áudio e Fala Melhorando a Classificação de Pitch Musical com SDTW

Novas estratégias para melhorar a estabilidade do treinamento na classificação de pitch musical.

2025-09-27T13:30:35+00:00 ― 7 min ler

Som Avanços na Tecnologia de Conversão de Voz

O Phoneme Hallucinator transforma a conversão de voz com dados limitados pra saídas mais claras.

2025-09-27T10:16:15+00:00 ― 5 min ler

Som Avançando a Geração de Gestos para Humanos Digitais

Um novo método cria gestos realistas a partir de áudio de fala bruto.

2025-09-27T08:39:05+00:00 ― 5 min ler

Processamento de Áudio e Fala Avanço no Reconhecimento de Fala Bilingue com Unidades de Grafemas

Aprimorando sistemas ASR híbridos para fala bilíngue usando unidades de grafema.

2025-09-27T03:47:35+00:00 ― 6 min ler

Computação e linguagem Avanços no Aprendizado Conjunto de Fala e Texto

Um novo modelo melhora o alinhamento de fala e texto para um reconhecimento automático melhor.

2025-09-27T02:10:25+00:00 ― 6 min ler

Som Avanços no Reconhecimento de Fala Visual com Lip2Vec

O Lip2Vec melhora o reconhecimento visual da fala usando menos dados rotulados.

2025-09-27T01:21:50+00:00 ― 8 min ler

Computação e linguagem Avanços na Tecnologia de Reconhecimento de Fala

Novos métodos melhoram a precisão e a velocidade nos sistemas de reconhecimento de fala.

2025-09-26T11:35:55+00:00 ― 6 min ler

Aprendizagem de máquinas O-1: Uma Nova Fronteira no Treinamento de Reconhecimento de Voz

O-1 melhora o reconhecimento de fala otimizando métodos de auto-treinamento.

2025-09-26T09:10:10+00:00 ― 6 min ler

Computação e linguagem Melhorando o Reconhecimento Automático de Fala com Injeção de Texto

Um novo método melhora o desempenho da ASR através da integração de dados textuais.

2025-09-26T07:33:00+00:00 ― 6 min ler

Computação e linguagem Melhorando o Reconhecimento de Fala com Injeção de Texto

A injeção de texto ajuda a reconhecer informações pessoais enquanto mantém a privacidade.

2025-09-26T06:44:25+00:00 ― 6 min ler

Som Avanços na Detecção de Eventos Sonoros Usando Aprendizado Generativo

Descubra como novas técnicas estão transformando a detecção de eventos sonoros para várias aplicações.

2025-09-26T05:55:50+00:00 ― 7 min ler

Processamento de Áudio e Fala A Importância do Processamento de Áudio Não Linear

Explorando métodos não lineares em áudio para produção musical e análise de fala.

2025-09-26T03:30:05+00:00 ― 7 min ler

Som Avanços na Extração de Pitch com o PitchNet

Um novo método para detecção precisa de pitch em música e som.

2025-09-26T02:41:30+00:00 ― 6 min ler

Som Avanços no Reconhecimento de Fala com Tecnologia mmWave

Radio2Text usa sinais de mmWave pra reconhecimento de fala em tempo real em ambientes barulhentos.

2025-09-25T22:38:35+00:00 ― 7 min ler

Processamento de Áudio e Fala Avaliando um Sistema Automático de Máscara de Som em Parques Urbanos

Um estudo analisa a eficácia de mascaradores de som automáticos em espaços públicos.

2025-09-25T18:35:40+00:00 ― 5 min ler

Processamento de Áudio e Fala Avanços no Reconhecimento de Fala com Redes Neurais Gráficas

Redes neurais gráficas melhoram a precisão do reconhecimento de voz analisando as relações entre amostras de voz.

2025-09-25T09:41:15+00:00 ― 6 min ler

Computação e linguagem Avanços no Reconhecimento de Emoções na Fala em Diferentes Idiomas

Um estudo avaliando o reconhecimento de emoções em modelos de fala em seis idiomas.

2025-09-25T08:04:05+00:00 ― 5 min ler

Som AffectEcho: Ligando Emoções na Fala da IA

O modelo AffectEcho melhora a expressão emocional na fala gerada por IA.

2025-09-25T07:15:30+00:00 ― 7 min ler

Informática - Som