Bhiksha Raj

A PAM oferece um jeito novo de medir a qualidade do áudio sem precisar de gravações de referência.

2025-08-26T21:10:50+00:00 ― 8 min ler

Um novo padrão avalia o desempenho dos sistemas de reconhecimento de voz em meio a várias interferências.

2025-08-19T14:16:50+00:00 ― 6 min ler

Investigando como pequenos erros nos dados de treinamento melhoram o conteúdo gerado por IA.

2025-08-04T09:29:06+00:00 ― 6 min ler

Novo framework avalia o desempenho do SLAM em condições desafiadoras.

2025-07-25T00:06:30+00:00 ― 8 min ler

Novos métodos melhoram modelos de fala para línguas com poucos dados.

2025-07-24T19:39:10+00:00 ― 6 min ler

Novos métodos melhoram a compreensão das emoções humanas na fala pela máquina.

2025-07-12T18:34:55+00:00 ― 5 min ler

Este estudo avalia as habilidades de raciocínio de modelos de áudio-linguagem com uma nova tarefa.

2025-07-10T09:54:05+00:00 ― 9 min ler

Esse estudo analisa como diferentes métodos de resumo afetam a qualidade e o conteúdo.

2025-07-02T05:56:55+00:00 ― 6 min ler

Um novo framework melhora a precisão na confirmação da identidade vocal.

2025-06-15T01:50:18+00:00 ― 6 min ler

Novas características acústicas melhoram o desempenho dos sistemas de ASR em ambientes barulhentos.

2025-06-03T14:29:40+00:00 ― 5 min ler

O ESPnet-Codec melhora o treinamento e a avaliação de codecs neurais para áudio e fala.

2025-06-03T03:09:30+00:00 ― 8 min ler

MACE melhora a legendagem de áudio conectando sons a descrições textuais precisas.

2025-05-28T17:47:08+00:00 ― 5 min ler

Explore como o POGAT melhora a análise de estruturas de grafos complexas.

2025-05-04T12:20:00+00:00 ― 7 min ler

Descubra como o SoftVQ-VAE melhora a criação de imagens com eficiência e qualidade.

2025-03-08T21:22:03+00:00 ― 7 min ler