Pesquisadores exploram abordagens sem texto pra entender melhor a linguagem falada.
― 7 min ler
Ciência de ponta explicada de forma simples
Pesquisadores exploram abordagens sem texto pra entender melhor a linguagem falada.
― 7 min ler
Um novo modelo melhora a clareza da fala, atacando ruídos e ecos.
― 6 min ler
Um novo conjunto de dados impulsiona a saúde com sistemas de pergunta baseados em fala para imagens médicas.
― 8 min ler
Um estudo sobre como melhorar a precisão da transcrição com um design de prompt melhor.
― 6 min ler
Uma nova abordagem melhora os sistemas SER usando descrições do ambiente ruidoso.
― 7 min ler
Combinar TTS e dados reais melhora de forma eficaz os sistemas de reconhecimento de voz.
― 5 min ler
Novo método melhora a conversão de fala silenciosa em áudio compreensível.
― 6 min ler
Um novo método melhora a separação de vozes em ambientes barulhentos com vários falantes.
― 6 min ler
Este estudo apresenta um método pra avaliar o significado dos sinais sonoros.
― 7 min ler
Novos métodos buscam melhorar o reconhecimento da fala sussurrada em sistemas automáticos.
― 7 min ler
Modelos de IA melhoram a precisão das conversões de fala para texto.
― 6 min ler
Analisando técnicas pra proteger a privacidade enquanto analisa conversas gravadas.
― 6 min ler
Um novo modelo integra dados de áudio e visual para reconhecimento de fala e tradução.
― 7 min ler
Novos métodos melhoram a precisão do reconhecimento de fala para sotaques diversos.
― 5 min ler
Wav2graph cria gráficos de conhecimento a partir da linguagem falada pra melhorar a compreensão da IA.
― 8 min ler
MulliVC transforma vozes em várias línguas com uma precisão e clareza impressionantes.
― 6 min ler
Novo sistema de navegação de robôs entende comandos falados através das emoções.
― 7 min ler
O modelo TOGGL melhora a precisão da transcrição em situações de fala sobreposta.
― 6 min ler
Um método pra melhorar a qualidade do reconhecimento de fala em ambientes barulhentos.
― 7 min ler
Pesquisadores desenvolvem o SaSLaW pra melhorar a adaptação da fala das máquinas em diferentes ambientes.
― 5 min ler
Um novo conjunto de dados destaca os preconceitos em modelos de fala baseados em gênero e idade.
― 8 min ler
Pesquisas mostram como fazer modelos de fala menores e mais eficientes.
― 6 min ler
O treinamento adversarial melhora a precisão na detecção de palavras-chave em fala sintética e real.
― 6 min ler
Um novo padrão melhora a avaliação de sistemas de reconhecimento de emoção na fala em diferentes idiomas e emoções.
― 7 min ler
Novos métodos melhoram modelos de ASR para várias línguas, preservando o conhecimento passado.
― 6 min ler
Uma nova abordagem melhora o reconhecimento de frases com troca de código na fala bilíngue.
― 6 min ler
Um novo método pra lidar melhor com sequências de dados longas.
― 5 min ler
Analisando como os padrões de voz afetam o significado e o desempenho da tecnologia.
― 5 min ler
Um olhar sobre as complicações de identificar faixas de áudio misturadas.
― 7 min ler
O-HuBERT melhora o reconhecimento de fala ao separar a informação do conteúdo e a informação expressiva.
― 6 min ler
Um novo método melhora o reconhecimento de fala em Hindi usando técnicas de pseudo-rotulagem.
― 5 min ler
Um sistema pra classificar os dialetos Tamil literário e coloquial usando características sonoras.
― 6 min ler
Novos métodos melhoram a compreensão de fala sussurrada e normal pelos computadores.
― 6 min ler
Uma olhada na separação em micro-lotes e seus benefícios para o treinamento de modelos.
― 6 min ler
Pesquisas mostram como LLMs melhoram o reconhecimento de fala automática em japonês.
― 7 min ler
Esse artigo examina como os modelos reconhecem tom, estresse e acentos de pitch.
― 5 min ler
O SALSA melhora a precisão do reconhecimento de fala para idiomas de baixo recurso, integrando modelos de ASR e de linguagem.
― 6 min ler
Novo método melhora a precisão da ASR usando modelos de linguagem para transcrições melhores.
― 4 min ler
Um novo sistema corrige erros de identificação de fala pra ter transcrições de conversa mais claras.
― 9 min ler
Melhorando a clareza da fala através de filtros híbridos e redes neurais.
― 6 min ler