Um método pra ajudar pessoas com deficiência visual a reconhecer sons na realidade mista.
― 6 min ler
Ciência de ponta explicada de forma simples
Um método pra ajudar pessoas com deficiência visual a reconhecer sons na realidade mista.
― 6 min ler
Este artigo fala sobre soluções para aplicativos de fala em idiomas com dados transcritos limitados.
― 7 min ler
Pesquisadores combinam métodos generativos e discriminativos pra melhorar a classificação de sons.
― 7 min ler
Um novo modelo melhora a segurança na identificação de voz e resiste a fraudes de voz.
― 6 min ler
Uma olhada na Atenção Adaptativa Gaussiana para melhorar o desempenho da IA.
― 7 min ler
Pesquisas mostram que o deep learning melhora nossa compreensão do ritmo da linguagem.
― 7 min ler
CoAVT integra dados de áudio, vídeo e texto pra uma compreensão melhor.
― 8 min ler
O E-SHARC melhora a identificação de falantes em vários ambientes de áudio.
― 7 min ler
Um novo sistema gera músicas feitas pra expressar felicidade e tristeza.
― 6 min ler
Analisando os perigos e preocupações éticas da geração de fala sintética.
― 6 min ler
Um guia pra entender a similaridade musical em modelos generativos.
― 10 min ler
Um estudo sobre síntese de som e sua avaliação em ambientes controlados.
― 5 min ler
Um novo método melhora a precisão na localização de fontes sonoras em movimento usando arrays de microfones.
― 7 min ler
A PAM oferece um jeito novo de medir a qualidade do áudio sem precisar de gravações de referência.
― 8 min ler
Um método melhora a clareza da fala em ambientes barulhentos sem dados de treinamento claros.
― 7 min ler
O Audio Flamingo manda bem em ouvir, conversar e se adaptar a novas tarefas de áudio.
― 6 min ler
Um novo modelo melhora a compreensão de áudio espacial pelas máquinas.
― 5 min ler
Um novo modelo melhora a eficiência de reconhecimento de fala em tempo real.
― 7 min ler
Novos métodos melhoram a ASR para idiomas sub-representados usando dados de idiomas semelhantes.
― 6 min ler
Esse estudo avalia sons versus palavras na reconstrução das árvores genealógicas das línguas.
― 7 min ler
Novo modelo melhora a criação de música usando o feedback dos usuários.
― 9 min ler
Reborn oferece soluções inovadoras para reconhecimento automático de fala sem dados rotulados.
― 7 min ler
Uma nova ferramenta ajuda os usuários a modificar sons facilmente através de instruções de texto simples.
― 10 min ler
Um novo modelo junta a língua falada e escrita pra melhorar a comunicação.
― 6 min ler
Um olhar sobre novos modelos para respostas faladas naturais.
― 7 min ler
Um novo método integra informações acústicas nos modelos de linguagem pra melhorar o reconhecimento de fala.
― 10 min ler
Usar música pra explicar câncer pode ajudar a entender melhor e deixar a galera mais envolvida.
― 8 min ler
Aprenda como a localização do som identifica a fonte dos sons usando técnicas avançadas.
― 5 min ler
Uma nova abordagem pra sintetizar vozes com precisão rítmica melhorada.
― 10 min ler
Os LLMs melhoram a precisão nas transcrições médicas, beneficiando o cuidado com os pacientes.
― 8 min ler
Um método pra melhorar a extração de melodia em diferentes estilos musicais com o mínimo esforço humano.
― 9 min ler
Novos métodos melhoram a detecção de atividade de voz e sobreposição na diarização de falantes.
― 8 min ler
Novo método integra sinais de fala para melhorar a detecção de depressão.
― 5 min ler
Esse artigo fala sobre métodos pra criar campos de som imersivos usando várias arrumações.
― 6 min ler
Um novo método reduz o som metálico indesejado na reverberação de áudio.
― 6 min ler
Chirp MFCC melhora a representação do sinal de áudio pra uma classificação e reconhecimento melhor.
― 6 min ler
Técnicas inovadoras para melhorar modelos de TTS e reduzir a perda de conhecimento.
― 7 min ler
O projeto EMO-SUPERB melhora o reconhecimento de emoção na fala com técnicas aprimoradas e colaboração da comunidade.
― 8 min ler
Uma nova estrutura melhora os modelos de linguagem ao reconhecer e responder a diferentes estilos de fala.
― 8 min ler
Um novo sistema pra avaliar o desempenho de codec de áudio em várias aplicações.
― 8 min ler