Pesquisadores melhoram o reconhecimento automático de fala para Punjabi usando técnicas inovadoras de auto-treinamento.
― 7 min ler
Ciência de ponta explicada de forma simples
Pesquisadores melhoram o reconhecimento automático de fala para Punjabi usando técnicas inovadoras de auto-treinamento.
― 7 min ler
Novo modelo melhora o reconhecimento de fala em ambientes barulhentos ao focar em um único falante.
― 4 min ler
Novos métodos buscam proteger a privacidade da fala em sistemas de monitoramento de áudio.
― 6 min ler
Um novo conjunto de dados melhora a síntese de fala ao capturar a expressão emocional sem depender de texto.
― 6 min ler
Novas estratégias para melhorar a estabilidade do treinamento na classificação de pitch musical.
― 7 min ler
O Phoneme Hallucinator transforma a conversão de voz com dados limitados pra saídas mais claras.
― 5 min ler
Um novo método cria gestos realistas a partir de áudio de fala bruto.
― 5 min ler
Aprimorando sistemas ASR híbridos para fala bilíngue usando unidades de grafema.
― 6 min ler
Um novo modelo melhora o alinhamento de fala e texto para um reconhecimento automático melhor.
― 6 min ler
O Lip2Vec melhora o reconhecimento visual da fala usando menos dados rotulados.
― 8 min ler
Novos métodos melhoram a precisão e a velocidade nos sistemas de reconhecimento de fala.
― 6 min ler
O-1 melhora o reconhecimento de fala otimizando métodos de auto-treinamento.
― 6 min ler
Um novo método melhora o desempenho da ASR através da integração de dados textuais.
― 6 min ler
A injeção de texto ajuda a reconhecer informações pessoais enquanto mantém a privacidade.
― 6 min ler
Descubra como novas técnicas estão transformando a detecção de eventos sonoros para várias aplicações.
― 7 min ler
Explorando métodos não lineares em áudio para produção musical e análise de fala.
― 7 min ler
Um novo método para detecção precisa de pitch em música e som.
― 6 min ler
Radio2Text usa sinais de mmWave pra reconhecimento de fala em tempo real em ambientes barulhentos.
― 7 min ler
Um estudo analisa a eficácia de mascaradores de som automáticos em espaços públicos.
― 5 min ler
Redes neurais gráficas melhoram a precisão do reconhecimento de voz analisando as relações entre amostras de voz.
― 6 min ler
Um estudo avaliando o reconhecimento de emoções em modelos de fala em seis idiomas.
― 5 min ler
O modelo AffectEcho melhora a expressão emocional na fala gerada por IA.
― 7 min ler
Este estudo melhora os modelos G2P ao focar nas áreas propensas a erros durante o treinamento.
― 5 min ler
Descubra métodos que melhoram a precisão no rastreamento de formantes para análise de fala.
― 8 min ler
Pesquisadores desenvolvem métodos baseados em voz para avaliar melhor a doença de Parkinson.
― 7 min ler
Meta-SELD melhora a localização de eventos sonoros em ambientes diversos.
― 6 min ler
A AVMIT dá pros pesquisadores umas ideias de como o som e a visão se relacionam no reconhecimento de ações.
― 7 min ler
Um novo modelo de IA melhora a previsão das pontuações de qualidade de áudio.
― 6 min ler
Essa pesquisa analisa como os métodos de amostragem afetam a qualidade da música gerada por IA.
― 6 min ler
Um novo método melhora a detecção de áudio falso em sistemas de reconhecimento de voz.
― 8 min ler
Novos métodos melhoram a precisão do rastreamento de batidas em música clássica complexa.
― 7 min ler
Uma olhada em como a diarização de linguagem ajuda em conversas multilíngues.
― 6 min ler
Um novo framework simplifica a geração de texturas de áudio reduzindo a necessidade de rotulação.
― 7 min ler
Um novo sistema melhora o reconhecimento de voz em ambientes barulhentos usando técnicas avançadas.
― 6 min ler
Avaliando a eficácia da anonimização da voz sem perder o som natural.
― 7 min ler
Novos modelos melhoram a precisão da classificação de áudio e a resistência contra barulho e ataques.
― 5 min ler
Uma visão geral das ferramentas de IA para criação musical e suas características únicas.
― 13 min ler
A pesquisa explora o deep learning pra criar áudio que combine com conteúdo de vídeo silencioso.
― 8 min ler
Um novo método melhora gravações de áudio usando pistas visuais.
― 7 min ler
Uma olhada em como os modelos XLS-R melhoram a avaliação da qualidade do áudio em reuniões online.
― 6 min ler