Este estudo apresenta um conjunto de dados e um método pra melhorar a precisão do ASR chinês usando Pinyin.
― 8 min ler
Ciência de ponta explicada de forma simples
Este estudo apresenta um conjunto de dados e um método pra melhorar a precisão do ASR chinês usando Pinyin.
― 8 min ler
Este estudo foca em melhorar a detecção de áudio deepfake usando métodos avançados.
― 5 min ler
Entender a incerteza aumenta a precisão do reconhecimento de emoções em situações do dia a dia.
― 7 min ler
Um sistema pra reconhecimento de falantes em áudio multilíngue sem precisar de muitos dados.
― 6 min ler
Melhorando a tecnologia de anonimização de falantes em nove idiomas pra garantir a privacidade.
― 6 min ler
Pesquisas mostram como o vídeo ajuda a melhorar o reconhecimento de fala em ambientes barulhentos.
― 6 min ler
Um novo método melhora a precisão em reconhecer fala de vários falantes.
― 6 min ler
Explore como o córtex auditivo integra som ao longo do tempo.
― 7 min ler
Um novo método melhora a clareza da fala em ambientes barulhentos usando redes neurais duplas.
― 5 min ler
O modelo XLSR-Transducer manda bem na transcrição em tempo real com pouquíssimos dados.
― 6 min ler
Um novo modelo melhora a precisão nas capacidades de fala para texto em várias línguas.
― 6 min ler
Pesquisas mostram riscos em modelos de fala multitarefa como o Whisper.
― 5 min ler
TokenVerse simplifica a análise de conversas faladas ao integrar várias tarefas em um único modelo.
― 7 min ler
Este estudo analisa o Mix-Training para reconhecimento de palavras-chave em condições de fala barulhenta.
― 6 min ler
Melhorando sistemas de reconhecimento de fala para línguas com dados online limitados.
― 6 min ler
Este estudo analisa como redes neurais interpretam a fala usando espectrogramas.
― 7 min ler
Aprenda como o contexto melhora a precisão do reconhecimento automático de fala e a identificação de palavras.
― 6 min ler
Esse estudo usa fiwGAN pra explorar os padrões de harmonia vocálica na língua assamesa.
― 6 min ler
Um novo framework melhora a performance de ASR usando dados e recursos limitados.
― 6 min ler
Este artigo fala sobre maneiras de melhorar a formatação de expressões numéricas em transcrições automáticas.
― 6 min ler
Pesquisadores exploram abordagens sem texto pra entender melhor a linguagem falada.
― 7 min ler
Um novo modelo melhora a clareza da fala, atacando ruídos e ecos.
― 6 min ler
Um novo conjunto de dados impulsiona a saúde com sistemas de pergunta baseados em fala para imagens médicas.
― 8 min ler
Um estudo sobre como melhorar a precisão da transcrição com um design de prompt melhor.
― 6 min ler
Uma nova abordagem melhora os sistemas SER usando descrições do ambiente ruidoso.
― 7 min ler
Combinar TTS e dados reais melhora de forma eficaz os sistemas de reconhecimento de voz.
― 5 min ler
Novo método melhora a conversão de fala silenciosa em áudio compreensível.
― 6 min ler
Um novo método melhora a separação de vozes em ambientes barulhentos com vários falantes.
― 6 min ler
Este estudo apresenta um método pra avaliar o significado dos sinais sonoros.
― 7 min ler
Novos métodos buscam melhorar o reconhecimento da fala sussurrada em sistemas automáticos.
― 7 min ler
Modelos de IA melhoram a precisão das conversões de fala para texto.
― 6 min ler
Analisando técnicas pra proteger a privacidade enquanto analisa conversas gravadas.
― 6 min ler
Um novo modelo integra dados de áudio e visual para reconhecimento de fala e tradução.
― 7 min ler
Novos métodos melhoram a precisão do reconhecimento de fala para sotaques diversos.
― 5 min ler
Wav2graph cria gráficos de conhecimento a partir da linguagem falada pra melhorar a compreensão da IA.
― 8 min ler
MulliVC transforma vozes em várias línguas com uma precisão e clareza impressionantes.
― 6 min ler
Novo sistema de navegação de robôs entende comandos falados através das emoções.
― 7 min ler
O modelo TOGGL melhora a precisão da transcrição em situações de fala sobreposta.
― 6 min ler
Um método pra melhorar a qualidade do reconhecimento de fala em ambientes barulhentos.
― 7 min ler
Pesquisadores desenvolvem o SaSLaW pra melhorar a adaptação da fala das máquinas em diferentes ambientes.
― 5 min ler