Um novo modelo tem como objetivo melhorar a qualidade da tradução de fala através de sistemas integrados.
― 6 min ler
Ciência de ponta explicada de forma simples
Um novo modelo tem como objetivo melhorar a qualidade da tradução de fala através de sistemas integrados.
― 6 min ler
Explora a importância crescente da edição de áudio para criadores de conteúdo.
― 6 min ler
Novas técnicas melhoram a geração de voz sintética com dados mínimos.
― 6 min ler
Uma nova ferramenta analisa os codas das baleias esperma pra entender melhor as interações sociais delas.
― 7 min ler
Um estudo melhora a estimativa da frequência cardíaca e a detecção de murmúrios usando gravações.
― 6 min ler
Pesquisas mostram como a música influencia a atividade cerebral usando inteligência de organoides.
― 10 min ler
Este estudo avalia as habilidades de raciocínio de modelos de áudio-linguagem com uma nova tarefa.
― 9 min ler
Novos métodos melhoram sistemas de fala para línguas sub-representadas.
― 6 min ler
Combinar TTS e dados reais melhora de forma eficaz os sistemas de reconhecimento de voz.
― 5 min ler
Melhorando a qualidade do áudio em dispositivos através de técnicas de expansão de largura de banda.
― 7 min ler
Novo método melhora a conversão de fala silenciosa em áudio compreensível.
― 6 min ler
Um método que melhora o reconhecimento de som nas máquinas.
― 6 min ler
Um novo método melhora a separação de vozes em ambientes barulhentos com vários falantes.
― 6 min ler
Este estudo apresenta um método pra avaliar o significado dos sinais sonoros.
― 7 min ler
O modelo FUTGA melhora a compreensão da música através de descrições detalhadas e específicas do tempo.
― 6 min ler
Um novo método de música melhora a expressão emocional através da consideração das notas.
― 6 min ler
A pesquisa combina aprimoramento de voz e aprendizado por transferência para melhorar os sistemas de anti-enganção.
― 9 min ler
Novos métodos melhoram a capacidade da IA de criar música estruturada.
― 7 min ler
O Wavespace oferece ferramentas inovadoras para criar e controlar som de um jeito melhor.
― 7 min ler
Um novo sistema melhora o reconhecimento de comandos de voz apesar do barulho de fundo.
― 6 min ler
Novas estratégias visam melhorar conjuntos de dados sintéticos para uma transcrição de bateria mais precisa.
― 8 min ler
Novos métodos buscam melhorar o reconhecimento da fala sussurrada em sistemas automáticos.
― 7 min ler
Modelos de deep learning analisam gravações de voz pra identificar insuficiência respiratória e estimar os níveis de oxigênio.
― 8 min ler
O MMTrail combina descrições visuais e sonoras para melhorar os modelos de linguagem em vídeo.
― 5 min ler
Esse método melhora a geração de música ao separar os aspectos emocionais em valência e excitação.
― 6 min ler
A PiCoGen oferece um método inovador pra gerar covers de piano sem precisar de dados pareados.
― 6 min ler
A pesquisa foca em identificar discurso abusivo em gravações de áudio em várias línguas.
― 6 min ler
Um método pra criar áudios que combinam com vídeos em primeira pessoa.
― 9 min ler
Um novo sistema melhora o acompanhamento de batidas em vários gêneros musicais.
― 6 min ler
Estudo revela a opinião dos ouvintes sobre música gerada por IA versus música feita por humanos.
― 9 min ler
Um estudo sobre como melhorar os métodos para detectar compressão de áudio com perdas e melhorar a qualidade do som.
― 7 min ler
Este estudo analisa como os LLMs entendem e geram música.
― 6 min ler
Uma visão geral da criação de música MIDI e seu potencial expressivo.
― 6 min ler
Um novo modelo que sincroniza anotações de acordes com o áudio da música de forma perfeita.
― 7 min ler
Este estudo propõe uma forma transparente de avaliar a dificuldade da música para educadores.
― 7 min ler
Um novo modelo melhora a síntese de fala para vários dialetos do chinês.
― 6 min ler
Um novo método melhora a criação de covers de piano, equilibrando qualidade e integridade musical.
― 5 min ler
Uma ferramenta que identifica de forma eficaz conteúdo deepfake através da análise combinada de áudio e visual.
― 6 min ler
Um novo parâmetro pra avaliar modelos que analisam música e linguagem.
― 7 min ler
Um novo framework melhora a classificação em tarefas áudio-visuais não vistas.
― 7 min ler