Artigos mais recentes para Tecnologia de Fala

Som DiCon: Uma Nova Abordagem para Síntese de Fala

Apresentando um método mais rápido para síntese de fala de alta qualidade usando modelos de difusão.

2025-09-09T03:24:05+00:00 ― 7 min ler

Processamento de Áudio e Fala HiFTNet: Avançando a Tecnologia de Texto para Fala

HiFTNet oferece uma síntese de fala mais rápida e de alta qualidade usando técnicas inovadoras e eficientes.

2025-09-09T02:35:30+00:00 ― 6 min ler

Som Melhorando o Reconhecimento de Fala com Treinamento na Hora do Teste

Explore como o TTT melhora o reconhecimento de fala se adaptando a mudanças na distribuição.

2025-09-08T14:26:45+00:00 ― 8 min ler

Processamento de Áudio e Fala Apresentando o Modelo SPGM para Separação de Fala

Um novo modelo melhora a eficiência e o desempenho na separação de fala.

2025-09-07T10:54:55+00:00 ― 6 min ler

Processamento de Áudio e Fala Melhorando o Reconhecimento de Fala com Técnicas de Aumento de Áudio

Estudo mostra que a augmentação de áudio pode melhorar o reconhecimento de fala em línguas de baixo recurso.

2025-09-06T09:48:50+00:00 ― 6 min ler

Som Transformando Movimentos da Língua em Sons da Fala

Este estudo transforma dados de ressonância magnética da língua em áudio de fala real.

2025-09-04T22:11:10+00:00 ― 5 min ler

Computação e linguagem Melhorando o Reconhecimento de Fala com Adaptação de Baixa Classificação

Um novo método melhora a eficiência do reconhecimento de fala usando adaptação de baixo rank.

2025-09-04T00:19:25+00:00 ― 6 min ler

Computação e linguagem HyPoradise: Aumentando a Precisão do Reconhecimento Automático de Fala

Um novo padrão pra melhorar a precisão do ASR usando modelos de linguagem.

2025-09-02T23:13:20+00:00 ― 7 min ler

Processamento de Áudio e Fala Avanços em Modelos de Texto-para-Fala Conversacional

Uma nova abordagem para a geração de fala pequena, eficiente e com som natural.

2025-08-31T09:41:00+00:00 ― 10 min ler

Computação e linguagem Aprimorando o Reconhecimento de Fala com Dados Acústicos

Um novo método integra informações acústicas nos modelos de linguagem pra melhorar o reconhecimento de fala.

2025-08-25T02:15:55+00:00 ― 10 min ler

Som Capturando o Ritmo da Fala: Um Novo Método

Uma nova abordagem pra sintetizar vozes com precisão rítmica melhorada.

2025-08-24T23:50:10+00:00 ― 10 min ler

Processamento de Áudio e Fala Avanços na tecnologia de texto para fala

Técnicas inovadoras para melhorar modelos de TTS e reduzir a perda de conhecimento.

2025-08-23T08:09:35+00:00 ― 7 min ler

Som Efeitos do Tamanho do Lote no Treinamento de Modelos de Fala

Esse estudo revisa como o tamanho do lote influencia o desempenho e o treinamento do modelo de fala.

2025-08-22T20:00:50+00:00 ― 8 min ler

Processamento de Áudio e Fala Melhorando Modelos de Fala com o RobustDistiller

Um novo método melhora a performance e a eficiência do modelo de fala em ambientes barulhentos.

2025-08-18T05:53:30+00:00 ― 6 min ler

Som Avanços nas características de voz de Texto para Fala

Um estudo sobre como melhorar sistemas de TTS com amostras de voz diversas.

2025-08-16T12:35:45+00:00 ― 5 min ler

Computação e linguagem Classificando Subdialetos do Curdo Sorani Através de Dados de Áudio

A pesquisa identifica e classifica os dialetos curdos sorani usando gravações de áudio extensivas.

2025-08-14T07:57:50+00:00 ― 7 min ler

Processamento de Áudio e Fala Melhorando o Texto para Fala com RALL-E

RALL-E melhora a síntese de texto para fala pra deixar a fala mais clara e natural.

2025-08-13T01:11:40+00:00 ― 6 min ler

Processamento de Áudio e Fala Avançando a Aprendizagem de Áudio com M2D e M2D-X

Novos métodos melhoram a representação de áudio através de técnicas de aprendizado auto-supervisionado.

2025-08-12T07:22:50+00:00 ― 7 min ler

Som Avanços na Tecnologia de Edição de Atributos de Voz

Novo modelo permite controle preciso das qualidades da voz enquanto mantém o conteúdo.

2025-08-11T18:25:30+00:00 ― 5 min ler

Processamento de Áudio e Fala Avaliação de Modelos de Processamento de Fala com o SUPERB

Um novo modelo pra avaliar modelos de fundação em tarefas de fala.

2025-08-11T09:31:05+00:00 ― 9 min ler

Interação Homem-Computador Reações dos Usuários aos Agentes de Fala Adaptativos

Estudo revela que usuários preferem agentes de fala estáticos em vez de adaptativos.

2025-08-11T09:29:30+00:00 ― 9 min ler

Processamento de Áudio e Fala FlashSpeech: Um Salto na Síntese de Fala

A FlashSpeech oferece soluções de síntese de fala rápidas e de alta qualidade.

2025-08-10T03:33:30+00:00 ― 8 min ler

Processamento de Áudio e Fala Avançando a Extração de Falante Alvo Audiovisual com SEANet

O SEANet melhora a isolação do falante reduzindo o ruído no processamento de áudio.

2025-08-08T20:47:20+00:00 ― 8 min ler

Processamento de Áudio e Fala Avançando o ASR: Uma Nova Abordagem de Aprendizado

Um método de aprendizado ativo em duas etapas melhora a precisão do reconhecimento de voz com menos dados.

2025-08-08T02:09:55+00:00 ― 6 min ler

Computação e linguagem Avaliação de Sistemas de ASR para Fala Gaguejada

Este estudo avalia o desempenho de sistemas de ASR com pessoas que gaguejam.

2025-08-07T04:18:10+00:00 ― 9 min ler

Computação e linguagem Examinando a Segurança dos Modelos de Linguagem de Fala

Esse artigo investiga vulnerabilidades em modelos de fala e maneiras de aumentar a segurança deles.

2025-08-05T23:09:10+00:00 ― 6 min ler

Processamento de Áudio e Fala Avanços na Tecnologia de Reconhecimento de Emoções na Fala

Novos métodos melhoram como as máquinas reconhecem emoções na fala.

2025-08-02T13:22:15+00:00 ― 6 min ler

Processamento de Áudio e Fala Avanços na Tecnologia de Texto para Fala

Seed-TTS cria uma fala realista a partir de texto para várias aplicações.

2025-08-01T10:39:00+00:00 ― 5 min ler

Processamento de Áudio e Fala Avanços na Síntese de Fala com ARDiT

Novo modelo ARDiT melhora a síntese de texto para fala e a edição de fala.

2025-07-31T07:55:45+00:00 ― 7 min ler

Computação e linguagem Apresentando o mHuBERT-147: Um Modelo de Fala Compacto

mHuBERT-147 processa fala em várias línguas de forma eficiente.

2025-07-30T22:12:45+00:00 ― 5 min ler

Processamento de Áudio e Fala Avanços em Reconhecimento Automático de Fala com TTA Dinâmico

Novos métodos melhoram o reconhecimento de fala em ambientes barulhentos usando técnicas adaptativas.

2025-07-29T13:49:25+00:00 ― 8 min ler

Processamento de Áudio e Fala Novo Modelo para Produção de Fala Clara

Um método novo que otimiza a análise e a síntese de fala usando os movimentos do trato vocal.

2025-07-28T20:49:10+00:00 ― 8 min ler

Som Melhorando a Diarização de Fala com Embeddings de Falantes

Um estudo sobre como melhorar a segmentação de áudio integrando embeddings de falantes.

2025-07-24T21:16:20+00:00 ― 6 min ler

Computação e linguagem Preenchendo a lacuna nas dialetos iorubás

Novos esforços visam apoiar os dialetos iorubás na tecnologia de linguagem.

2025-07-23T15:03:36+00:00 ― 6 min ler

Computação e linguagem Wav2Vec2.0 e o Som do Reconhecimento de Fala

Este artigo fala sobre como o Wav2Vec2.0 processa os sons da fala usando fonologia.

2025-07-23T05:35:45+00:00 ― 6 min ler

Computação e linguagem Avanço da Tecnologia de Fala para o Árabe Tunisiano

Esse estudo avalia a tecnologia de fala em línguas com poucos recursos, tipo o árabe tunisiano.

2025-07-21T12:18:00+00:00 ― 6 min ler

Processamento de Áudio e Fala Melhorando a Síntese de Fala com Modelagem de Subcentro

Melhorando a síntese de fala pra gerar vozes mais naturais e expressivas.

2025-07-21T03:23:35+00:00 ― 6 min ler

Processamento de Áudio e Fala Uma Nova Forma de Editar Sons da Fala

Apresentando um método pra ter mais controle na edição de fala.

2025-07-20T12:49:05+00:00 ― 6 min ler

Processamento de Áudio e Fala Apresentando a Emilia: Um Novo Conjunto de Dados de Geração de Fala

A Emilia oferece um conjunto de dados bem variado pra melhorar os modelos de geração de fala.

2025-07-20T09:34:45+00:00 ― 7 min ler

Processamento de Áudio e Fala Avaliando a Eficiência da Mamba em Tecnologia de Fala

Mamba mostra potencial contra transformers em tarefas de fala, especialmente para entradas longas.

2025-07-17T13:33:45+00:00 ― 5 min ler