Um novo framework melhora a performance de ASR usando dados e recursos limitados.
― 6 min ler
Ciência de ponta explicada de forma simples
Um novo framework melhora a performance de ASR usando dados e recursos limitados.
― 6 min ler
Um novo método melhora a eficiência na geração de áudio usando técnicas de atenção inovadoras.
― 6 min ler
Descubra como a IA tá transformando a geração de música com o BandControlNet.
― 7 min ler
Um robô móvel aprende a reconhecer vozes em ambientes barulhentos para aplicações práticas.
― 5 min ler
Um novo conjunto de dados visa melhorar a captura de voz usando sensores de condução pelo corpo.
― 7 min ler
Uma nova abordagem melhora a detecção de deepfakes usando análise áudio-visual.
― 7 min ler
Um olhar sobre o progresso nas tecnologias e métodos de reconhecimento de fala.
― 6 min ler
Um novo método melhora a detecção de gagueira combinando dados de áudio, vídeo e texto.
― 6 min ler
Uma equipe melhora o processamento de áudio para identificação de falantes e idiomas.
― 5 min ler
Pesquisas sobre detectar emoções humanas pela fala mostram potencial para várias aplicações.
― 6 min ler
Um novo método melhora a criação de som para modelos humanos 3D realistas.
― 8 min ler
Esse estudo mostra como a fala pode estimar taxas de respiração usando modelos avançados.
― 6 min ler
GraphMuse facilita a análise de dados musicais simbólicos com técnicas avançadas de aprendizado de máquina.
― 6 min ler
A pesquisa apresenta novos métodos para avaliar sistemas de reconhecimento de fala em polonês.
― 7 min ler
Este artigo fala sobre maneiras de melhorar a formatação de expressões numéricas em transcrições automáticas.
― 6 min ler
Aprendizado auto-supervisionado transforma o reconhecimento musical através de métodos inovadores.
― 6 min ler
Um novo conjunto de dados melhora a fala de máquina em mandarim, com o objetivo de uma expressão mais natural.
― 7 min ler
Um estudo sobre como melhorar a localização de fontes sonoras aproveitando melhor as informações audiovisuais.
― 8 min ler
Um novo modelo analisa a fala pra identificar leve comprometimento cognitivo em várias línguas.
― 6 min ler
Explorando o impacto da IA em estilos musicais sub-representados.
― 7 min ler
Um jeito de melhorar os sistemas de TTS pra pronunciar melhor palavras fora do vocabulário na Índia.
― 6 min ler
Um novo modelo melhora a eficiência no processamento de fala com menos consumo de energia.
― 5 min ler
Novos modelos de aprendizado de máquina melhoram a clareza da fala para usuários de aparelhos auditivos.
― 7 min ler
A pesquisa explora áudio de baixa frequência pra proteger a privacidade em estudos de comportamento social.
― 7 min ler
Explorando como o som se comporta em ambientes com várias salas e suas implicações na tecnologia.
― 7 min ler
Novas ferramentas de IA estão simplificando a edição de música com técnicas inovadoras e precisão melhorada.
― 6 min ler
A combinação de voz pré-definida melhora a tradução de fala enquanto garante privacidade e diminui riscos.
― 7 min ler
Um novo sistema ajuda músicos a criar músicas com mais controle e precisão.
― 8 min ler
Uma nova ferramenta pra avaliar a replicação em música feita por IA.
― 8 min ler
Um novo modelo de texto pra áudio usando só dados públicos.
― 6 min ler
Um novo conjunto de dados tem o objetivo de melhorar a compreensão da troca de código entre várias línguas.
― 6 min ler
Esse artigo examina o equilíbrio de gênero nas transmissões de notícias francesas em diferentes temas.
― 6 min ler
O dataset Rasa melhora a conversão de texto em fala para línguas indianas com uma fala neutra e expressiva.
― 7 min ler
Novos métodos melhoram a compreensão das emoções humanas na fala pela máquina.
― 5 min ler
Simplificar ferramentas de IA pode ajudar artistas a melhorar sua expressão criativa.
― 5 min ler
O MusiConGen melhora o controle do usuário na geração de texto para música.
― 7 min ler
Pesquisadores melhoram a decodificação da fala usando EEG pra ajudar quem tem dificuldades de fala.
― 8 min ler
Um novo modelo melhora a clareza da fala, atacando ruídos e ecos.
― 6 min ler
O J-CHAT fornece um grande conjunto de dados de código aberto pra melhorar sistemas de diálogo falado.
― 6 min ler
Novos métodos permitem que músicos criem instrumentos a partir de comandos de som.
― 6 min ler