Um novo modelo melhora o alinhamento de fala e texto para um reconhecimento automático melhor.
― 6 min ler
Ciência de ponta explicada de forma simples
Um novo modelo melhora o alinhamento de fala e texto para um reconhecimento automático melhor.
― 6 min ler
Apresentando novas métricas pra avaliar a precisão da diarização de falantes em IA conversacional.
― 7 min ler
Novos métodos melhoram a precisão e a velocidade nos sistemas de reconhecimento de fala.
― 6 min ler
Um novo método melhora o desempenho da ASR através da integração de dados textuais.
― 6 min ler
A injeção de texto ajuda a reconhecer informações pessoais enquanto mantém a privacidade.
― 6 min ler
Radio2Text usa sinais de mmWave pra reconhecimento de fala em tempo real em ambientes barulhentos.
― 7 min ler
Este estudo melhora os modelos G2P ao focar nas áreas propensas a erros durante o treinamento.
― 5 min ler
Descubra métodos que melhoram a precisão no rastreamento de formantes para análise de fala.
― 8 min ler
Novos métodos melhoram o processamento e a geração de fala em modelos de linguagem.
― 6 min ler
Novas técnicas melhoram a clareza do áudio em ambientes barulhentos.
― 7 min ler
Novos métodos melhoram a identificação de palavras-chave usando dados de fala disponíveis.
― 5 min ler
Uma nova abordagem melhora a estimativa de confiança em sistemas de ASR para uma precisão melhor.
― 5 min ler
Este estudo explora problemas com o uso de convnets para a criação de filtro de áudio.
― 6 min ler
Esse artigo explora avanços na diarização de falantes usando modelos de linguagem pra ter mais precisão.
― 5 min ler
Novo sistema melhora o reconhecimento de fala usando prompts que levam em conta o contexto.
― 5 min ler
EnCodecMAE combina aprendizado auto-supervisionado e codecs de áudio pra melhorar o desempenho em tarefas de áudio.
― 6 min ler
Apresentando um método flexível para reconhecer palavras-chave na fala em diferentes idiomas.
― 7 min ler
A PIAVE ajuda máquinas a captar vozes com clareza, mesmo quando as pessoas viram a cabeça.
― 7 min ler
Apresentando uma estrutura flexível para aprimorar a pesquisa em privacidade de voz.
― 8 min ler
Um novo método facilita a compreensão dos modelos de classificação de fala.
― 7 min ler
M-AUDIODEC comprime áudio multicanal mantendo a posição dos alto-falantes e a qualidade.
― 7 min ler
Pesquisas revelam novos modelos para melhorar a clareza da voz em fones de ouvido inteligentes.
― 6 min ler
Um novo método melhora a habilidade dos robôs de seguir direções faladas com precisão.
― 6 min ler
Novos métodos estão melhorando nossa habilidade de detectar discursos falsos de forma eficaz.
― 6 min ler
Um novo método melhora os modelos de ASR para usuários individuais usando quantização e adaptação.
― 7 min ler
Novos modelos se adaptam pra melhorar a eficiência e a rapidez do reconhecimento de fala.
― 6 min ler
Melhorando o reconhecimento de fala do Whisper para o vietnamita e outras línguas com poucos recursos.
― 5 min ler
Esse estudo analisa como a habilidade auditiva afeta a compreensão da fala em ambientes barulhentos.
― 7 min ler
Usando agrupamento k-means pra otimizar dados de áudio e treinar o modelo melhor.
― 6 min ler
Um método pra escolher o melhor modelo de ASR baseado nas características do áudio.
― 6 min ler
MyST tem como objetivo melhorar o aprendizado de ciências das crianças por meio de tutoria virtual.
― 5 min ler
Uma olhada no M2MeT 2.0 e seu impacto na transcrição de reuniões.
― 7 min ler
Este estudo analisa como a compressão de modelos afeta o reconhecimento de fala em ambientes barulhentos.
― 6 min ler
Um novo modelo melhora a compreensão da fala e dos sons ao mesmo tempo.
― 6 min ler
Apresentando novos modelos pra melhorar a extração de fala em ambientes barulhentos.
― 6 min ler
A pesquisa foca em melhorar os sistemas de ASR para áudio não segmentado.
― 5 min ler
Analisando as diferenças de desempenho no reconhecimento de fala entre os gêneros.
― 6 min ler
Os LLMs melhoram a precisão e a correção de erros em sistemas de reconhecimento de fala.
― 6 min ler
O PP-MeT quer melhorar a precisão na transcrição de reuniões com várias pessoas.
― 5 min ler
Essa pesquisa apresenta um modelo pra melhorar a clareza da fala em diferentes condições.
― 6 min ler