Um novo modelo aumenta as pontuações de confiança em sistemas de reconhecimento de fala.
― 6 min ler
Ciência de ponta explicada de forma simples
Um novo modelo aumenta as pontuações de confiança em sistemas de reconhecimento de fala.
― 6 min ler
Novas técnicas melhoram a compreensão da fala disártrica em sistemas de comunicação.
― 6 min ler
Uma nova abordagem não supervisionada melhora a isolação de voz em misturas de áudio.
― 5 min ler
Um novo padrão pra avaliar modelos de machine learning na compreensão da fala em diferentes idiomas.
― 7 min ler
Este artigo fala sobre métodos pra melhorar a classificação de telefones usando características de áudio.
― 7 min ler
Um novo modelo melhora a percepção auditiva e as habilidades de raciocínio na IA.
― 7 min ler
O NASS melhora a isolação de voz em ambientes barulhentos, superando métodos tradicionais.
― 5 min ler
Melhorando as métricas de qualidade de som usando novos métodos de cálculo de loudness.
― 6 min ler
O AlignAtt melhora a tradução de fala simultânea com mais rapidez e qualidade.
― 6 min ler
Um novo método garante privacidade na classificação de fala sem perder desempenho.
― 7 min ler
Esse estudo mostra como adaptar a tecnologia TTS a diferentes sotaques de forma eficiente.
― 6 min ler
O modelo AMII melhora a comunicação para agentes socialmente interativos através de um comportamento não verbal mais aprimorado.
― 6 min ler
Apresentando um modelo que integra vários tipos de dados para tarefas complexas.
― 6 min ler
Os pesquisadores estão melhorando a forma como detectamos sons de animais automaticamente.
― 8 min ler
Descubra como o Whisper se adapta a várias tarefas de fala usando engenharia de prompt.
― 6 min ler
O FastFit melhora a velocidade de geração de fala sem perder a qualidade do som.
― 6 min ler
Um novo método melhora a detecção de palavras-chave em gravações de áudio.
― 6 min ler
O sistema AED-EEND melhora a diarização de falantes ao integrar técnicas avançadas pra uma precisão maior.
― 6 min ler
O Pengi junta a compreensão de áudio e a geração de texto em um único modelo.
― 8 min ler
Um novo método melhora os sistemas de detecção de palavras-chave para ter um desempenho melhor em áudios que mudam.
― 5 min ler
Um novo sistema TTS melhora a geração de fala em várias línguas com dados limitados.
― 7 min ler
CoDi permite a geração simultânea de diferentes tipos de conteúdo a partir de várias entradas.
― 5 min ler
Novas técnicas melhoram a separação de som em mixes de Ambisonics pra uma experiência de áudio melhor.
― 8 min ler
Novos métodos usando fala mostram potencial pra identificar padrões de respiração e condições de saúde.
― 5 min ler
O MIDI-Draw permite que qualquer um faça música desenhando melodias de forma intuitiva.
― 5 min ler
Novas técnicas que pegam emprestado da processamento de imagem melhoram a avaliação da qualidade de áudio.
― 7 min ler
Novos métodos melhoram a compreensão da fala pelas máquinas usando pistas de áudio e visuais.
― 6 min ler
Novo modelo melhora o reconhecimento de palavras-chave em ambientes acústicos desafiadores.
― 7 min ler
Um novo método melhora os modelos de fala transferindo conhecimento de modelos de texto.
― 6 min ler
Uma coleção de sons respiratórios ajuda a identificar casos de COVID-19.
― 5 min ler
Um novo modelo melhora a verificação de fala com técnicas eficientes.
― 6 min ler
Uma olhada detalhada nas técnicas de reconhecimento de fala desenvolvidas para a competição de 2022.
― 6 min ler
Uma nova abordagem ensina a IA a reconhecer melhor a fala e as emoções em ambientes barulhentos.
― 6 min ler
Novos métodos buscam melhorar a compreensão das dinâmicas familiares e da saúde mental das crianças.
― 8 min ler
Novas técnicas de deep learning melhoram previsões dos movimentos do diafragma do falante.
― 6 min ler
Explorando como o ciwGAN pode aprender e representar características fonológicas como a nasalidade.
― 5 min ler
Um novo modelo melhora a eficiência e a precisão do reconhecimento de fala.
― 5 min ler
Um novo método melhora a precisão do reconhecimento de fala usando informações contextuais.
― 6 min ler
Pesquisadores usam GANs pra gerar fala com ruído a partir de áudio limpo, melhorando modelos de fala.
― 6 min ler
O corpus JNV captura sons emocionais diversos em japonês, enriquecendo as coleções existentes.
― 7 min ler