Uma nova estrutura melhora a detecção de eventos sonoros sobrepostos em ambientes de áudio complexos.
― 7 min ler
Ciência de ponta explicada de forma simples
Uma nova estrutura melhora a detecção de eventos sonoros sobrepostos em ambientes de áudio complexos.
― 7 min ler
Pesquisas sobre como melhorar a identificação de sons de pássaros usando técnicas de aprendizado de máquina.
― 8 min ler
Um novo método melhora a criação automática de capas de piano usando a tecnologia de transcrição musical existente.
― 7 min ler
Um olhar sobre os resultados do desafio Codec-SUPERB e as métricas de desempenho do codec.
― 6 min ler
O projeto MultiMed melhora o reconhecimento de fala automático para uma comunicação na saúde mais eficiente.
― 7 min ler
Uma nova abordagem para avaliar a qualidade do áudio sem precisar de referências limpas.
― 7 min ler
O framework ECHO melhora a precisão da classificação de sons usando rótulos estruturados e um processo de aprendizado em duas etapas.
― 6 min ler
Novo método melhora a clareza da fala integrando informações visuais.
― 6 min ler
Uma nova abordagem melhora a estimativa de direção do som para falantes em movimento em ambientes desafiadores.
― 10 min ler
A Recuperação de Momentos de Áudio permite localizar momentos específicos em gravações longas.
― 6 min ler
O Safe Guard detecta discurso de ódio em tempo real durante interações de voz na VR social.
― 7 min ler
A IA tá evoluindo pra ter conversas mais naturais.
― 6 min ler
Uma nova abordagem usa ressonância magnética em tempo real pra visualizar os movimentos da produção da fala.
― 6 min ler
Um novo método pra detectar reflexões de som no ambiente melhora a experiência auditiva.
― 8 min ler
Um projeto que tá desenvolvendo conjuntos de dados de fala e texto pra línguas com poucos recursos.
― 6 min ler
Um novo modelo melhora o reconhecimento de voz e se adapta a várias tarefas de fala.
― 5 min ler
Novos métodos são necessários pra detectar tecnologias avançadas de fala deepfake.
― 7 min ler
Novos métodos aumentam a precisão na identificação de sons de animais com dados limitados.
― 6 min ler
Novo método melhora a integração do som virtual em ambientes de AR.
― 7 min ler
Um novo método pretende preservar a privacidade da voz enquanto permite uma comunicação eficaz.
― 5 min ler
Novos métodos melhoram o reconhecimento de fala para línguas de baixo recurso sem texto.
― 5 min ler
Novos métodos melhoram a precisão em sistemas de reconhecimento de fala usando entendimento fonético.
― 6 min ler
Esse framework melhora as animações em tempo real ao sincronizar fala e gestos de forma suave.
― 5 min ler
Novas características acústicas melhoram o desempenho dos sistemas de ASR em ambientes barulhentos.
― 5 min ler
Uma nova função de perda melhora a qualidade do áudio ao alinhar fase e magnitude.
― 7 min ler
Um novo modelo de TTS adiciona profundidade emocional à fala gerada por computador.
― 6 min ler
Avaliando modelos de reconhecimento de fala para sessões de diagnóstico de autismo.
― 7 min ler
Métodos recentes melhoram a clareza e qualidade do áudio usando modelos avançados.
― 7 min ler
Uma nova abordagem melhora a detecção de gravações de áudio falsas.
― 6 min ler
O ESPnet-Codec melhora o treinamento e a avaliação de codecs neurais para áudio e fala.
― 8 min ler
Explorando métodos pra adaptar RNNs a diferentes taxas de amostragem de áudio.
― 6 min ler
Novo modelo consegue transcrever fala mais rápido sem perder precisão.
― 5 min ler
Descubra como as embeddings Matryoshka melhoram a eficiência e flexibilidade do reconhecimento de falantes.
― 6 min ler
Apresentando o NanoVoice, um modelo de texto para fala rápido e eficiente para áudio personalizado.
― 6 min ler
Novo modelo VoiceGuider melhora TTS para diferentes falantes.
― 7 min ler
Um novo método pra converter vozes entre idiomas, mantendo as características únicas.
― 6 min ler
Novas técnicas melhoram a qualidade da fala expressiva entre diferentes falantes.
― 6 min ler
Esse artigo explora o papel das métricas perceptuais na classificação de gêneros musicais.
― 5 min ler
Um novo método melhora o processamento de fala e áudio em várias tarefas.
― 6 min ler
Um novo sistema melhora a identificação dos falantes durante discussões com vários participantes.
― 6 min ler