O NASS melhora a isolação de voz em ambientes barulhentos, superando métodos tradicionais.
― 5 min ler
Ciência de ponta explicada de forma simples
O NASS melhora a isolação de voz em ambientes barulhentos, superando métodos tradicionais.
― 5 min ler
Melhorando as métricas de qualidade de som usando novos métodos de cálculo de loudness.
― 6 min ler
O AlignAtt melhora a tradução de fala simultânea com mais rapidez e qualidade.
― 6 min ler
Um novo método garante privacidade na classificação de fala sem perder desempenho.
― 7 min ler
Esse estudo mostra como adaptar a tecnologia TTS a diferentes sotaques de forma eficiente.
― 6 min ler
O modelo AMII melhora a comunicação para agentes socialmente interativos através de um comportamento não verbal mais aprimorado.
― 6 min ler
Apresentando um modelo que integra vários tipos de dados para tarefas complexas.
― 6 min ler
Os pesquisadores estão melhorando a forma como detectamos sons de animais automaticamente.
― 8 min ler
Descubra como o Whisper se adapta a várias tarefas de fala usando engenharia de prompt.
― 6 min ler
O FastFit melhora a velocidade de geração de fala sem perder a qualidade do som.
― 6 min ler
Um novo método melhora a detecção de palavras-chave em gravações de áudio.
― 6 min ler
O sistema AED-EEND melhora a diarização de falantes ao integrar técnicas avançadas pra uma precisão maior.
― 6 min ler
O Pengi junta a compreensão de áudio e a geração de texto em um único modelo.
― 8 min ler
Um novo método melhora os sistemas de detecção de palavras-chave para ter um desempenho melhor em áudios que mudam.
― 5 min ler
Um novo sistema TTS melhora a geração de fala em várias línguas com dados limitados.
― 7 min ler
CoDi permite a geração simultânea de diferentes tipos de conteúdo a partir de várias entradas.
― 5 min ler
Novas técnicas melhoram a separação de som em mixes de Ambisonics pra uma experiência de áudio melhor.
― 8 min ler
Novos métodos usando fala mostram potencial pra identificar padrões de respiração e condições de saúde.
― 5 min ler
O MIDI-Draw permite que qualquer um faça música desenhando melodias de forma intuitiva.
― 5 min ler
Novas técnicas que pegam emprestado da processamento de imagem melhoram a avaliação da qualidade de áudio.
― 7 min ler
Novos métodos melhoram a compreensão da fala pelas máquinas usando pistas de áudio e visuais.
― 6 min ler
Novo modelo melhora o reconhecimento de palavras-chave em ambientes acústicos desafiadores.
― 7 min ler
Um novo método melhora os modelos de fala transferindo conhecimento de modelos de texto.
― 6 min ler
Uma coleção de sons respiratórios ajuda a identificar casos de COVID-19.
― 5 min ler
Um novo modelo melhora a verificação de fala com técnicas eficientes.
― 6 min ler
Uma olhada detalhada nas técnicas de reconhecimento de fala desenvolvidas para a competição de 2022.
― 6 min ler
Uma nova abordagem ensina a IA a reconhecer melhor a fala e as emoções em ambientes barulhentos.
― 6 min ler
Novos métodos buscam melhorar a compreensão das dinâmicas familiares e da saúde mental das crianças.
― 8 min ler
Novas técnicas de deep learning melhoram previsões dos movimentos do diafragma do falante.
― 6 min ler
Explorando como o ciwGAN pode aprender e representar características fonológicas como a nasalidade.
― 5 min ler
Um novo modelo melhora a eficiência e a precisão do reconhecimento de fala.
― 5 min ler
Um novo método melhora a precisão do reconhecimento de fala usando informações contextuais.
― 6 min ler
Pesquisadores usam GANs pra gerar fala com ruído a partir de áudio limpo, melhorando modelos de fala.
― 6 min ler
O corpus JNV captura sons emocionais diversos em japonês, enriquecendo as coleções existentes.
― 7 min ler
Novos métodos melhoram a geração de risadas para interações mais reais entre humanos e computadores.
― 6 min ler
Um olhar sobre como identificar áudio falso no mundo tecnológico de hoje.
― 5 min ler
Um novo método melhora a detecção de emoções na fala através de técnicas avançadas de transformadores.
― 6 min ler
Usando modelos de texto pra melhorar a geração de fala e facilitar a compreensão.
― 9 min ler
O C-MCR simplifica a aprendizagem multimodal conectando o conhecimento já existente de forma eficiente.
― 7 min ler
FluentSpeech oferece uma solução automática para editar falas de forma mais tranquila.
― 8 min ler