Uma nova abordagem melhora a eficiência em modelos de ASR multilíngues ao integrar técnicas de mascaramento adaptativo.
― 5 min ler
Ciência de ponta explicada de forma simples
Uma nova abordagem melhora a eficiência em modelos de ASR multilíngues ao integrar técnicas de mascaramento adaptativo.
― 5 min ler
Investigando áudio deepfake pra melhorar modelos de transcrição pra línguas menos comuns.
― 10 min ler
Novas estratégias melhoram o aprendizado com rótulos fracos ao selecionar exemplos negativos relevantes.
― 7 min ler
Um método novo pra marcar áudio criado por modelos de difusão pra proteger a propriedade.
― 7 min ler
Novas técnicas melhoram os sistemas de ASR para reconhecer melhor discursos longos.
― 5 min ler
Novas técnicas visam aumentar a precisão dos dispositivos ativados por voz contra ataques.
― 7 min ler
DurIAN-E melhora a fala sintética com uma expressividade e fluidez mais naturais.
― 5 min ler
Descubra como o SER melhora as interações entre humanos e máquinas através da detecção de emoções.
― 6 min ler
Um método pra escolher o melhor modelo de ASR baseado nas características do áudio.
― 6 min ler
Saiba como a desreverberação melhora o reconhecimento de fala em ambientes barulhentos.
― 5 min ler
A Coco-Nut oferece amostras de voz japonesa diversas pra aplicativos avançados de texto pra fala.
― 12 min ler
Esse estudo apresenta um modelo baseado em atenção pra estimar volumes de cômodos a partir de gravações de áudio.
― 6 min ler
O modelo ASCA melhora a precisão da classificação de áudio para conjuntos de dados pequenos.
― 7 min ler
MyST tem como objetivo melhorar o aprendizado de ciências das crianças por meio de tutoria virtual.
― 5 min ler
Estudo compara a precisão de localização do som em formatos de áudio de quatro canais e dois canais.
― 6 min ler
Uma olhada no M2MeT 2.0 e seu impacto na transcrição de reuniões.
― 7 min ler
Um novo método de processamento de áudio melhora o anonimato do falante enquanto mantém a clareza da fala.
― 6 min ler
Este estudo transforma dados de ressonância magnética da língua em áudio de fala real.
― 5 min ler
Este estudo analisa como a compressão de modelos afeta o reconhecimento de fala em ambientes barulhentos.
― 6 min ler
Explore como o Aprendizado Ativo Online melhora a eficiência do reconhecimento de sons.
― 7 min ler
Um novo modelo melhora a compreensão da fala e dos sons ao mesmo tempo.
― 6 min ler
Um sistema que classifica a linguagem dos clientes em sessões de terapia usando vários métodos de comunicação.
― 7 min ler
Nova tecnologia melhora a detecção de disartria e a classificação de gravidade.
― 6 min ler
Novos métodos melhoram a detecção precoce de problemas de voz usando características da fonte glotal.
― 6 min ler
Melhorando modelos de fala pra reconhecer e se adaptar melhor a diferentes sotaques.
― 5 min ler
DCLS melhora o desempenho na classificação de áudio aprendendo as posições do núcleo durante o treinamento.
― 5 min ler
Um novo método melhora o aprendizado de máquina de dados áudio-visuais.
― 6 min ler
Apresentando novos modelos pra melhorar a extração de fala em ambientes barulhentos.
― 6 min ler
Um novo método melhora a eficiência do reconhecimento de fala usando adaptação de baixo rank.
― 6 min ler
Juntando áudio, vídeo e texto pra melhorar as avaliações de saúde mental.
― 6 min ler
Uma olhada nas melhorias em reconhecimento de fala pra aumentar a velocidade e a precisão.
― 6 min ler
Melhorando a comunicação entre médico e paciente com tecnologias avançadas de reconhecimento de voz.
― 7 min ler
Explore as ameaças de privacidade e segurança da tecnologia controlada por voz.
― 5 min ler
A Melodia da Synthia ajuda os pesquisadores a testarem modelos de áudio com dados variados.
― 6 min ler
A pesquisa foca em melhorar os sistemas de ASR para áudio não segmentado.
― 5 min ler
A pesquisa foca em otimizar sintetizadores para vocalizações humanas em diferentes mídias.
― 6 min ler
Um novo método melhora a verificação de falantes gerenciando a variabilidade das sessões de forma eficaz.
― 7 min ler
Os LLMs melhoram a precisão e a correção de erros em sistemas de reconhecimento de fala.
― 6 min ler
Um novo método melhora o reconhecimento de som e a localização da fonte sem precisar de rótulos.
― 6 min ler
Um novo padrão pra melhorar a precisão do ASR usando modelos de linguagem.
― 7 min ler