Engenharia Eletrotécnica e Ciência dos Sistemas - Processamento de Áudio e Fala

Processamento de Áudio e Fala Enfrentando o Desafio dos Deepfakes de Áudio

Este estudo investiga a eficácia de modelos multilíngues na detecção de deepfakes em áudio.

2025-08-14T00:40:35+00:00 ― 6 min ler

Som Medindo a Adesão em Modelos de Música Generativa

Uma nova forma de avaliar como a música segue os comandos de áudio.

2025-08-13T23:03:25+00:00 ― 10 min ler

Visão computacional e reconhecimento de padrões Apresentando o Conjunto de Dados 360+x para uma Compreensão de Cena Aprimorada

Um novo conjunto de dados melhora a forma como os robôs interpretam ambientes do mundo real.

2025-08-13T18:11:55+00:00 ― 8 min ler

Som Nova Abordagem para Separação de Áudio Usando Linguagem

Esse método melhora a separação de áudio juntando descrições de linguagem com a análise de som.

2025-08-13T14:57:35+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Apresentando o UniAV: Uma Abordagem Unificada para Localização de Vídeos

UniAV combina localização de ações, detecção de som e localização de eventos audiovisuais pra uma melhor compreensão de vídeos.

2025-08-13T10:06:05+00:00 ― 9 min ler

Processamento de Áudio e Fala CLaM-TTS: Avançando a Tecnologia de Texto para Fala

O CLaM-TTS melhora a síntese de fala usando técnicas avançadas pra mais eficiência e qualidade.

2025-08-13T08:28:55+00:00 ― 7 min ler

Redes Sociais e de Informação Analisando Música Através de Gráficos

Gráficos permitem novas ideias sobre a estrutura da música e suas relações.

2025-08-13T03:09:57+00:00 ― 6 min ler

Processamento de Áudio e Fala Melhorando o Texto para Fala com RALL-E

RALL-E melhora a síntese de texto para fala pra deixar a fala mais clara e natural.

2025-08-13T01:11:40+00:00 ― 6 min ler

Som MuPT: Avançando a Geração de Música com Notação ABC

MuPT usa a notação ABC pra gerar música com IA de jeito eficaz.

2025-08-12T09:00:00+00:00 ― 6 min ler

Processamento de Áudio e Fala Avançando a Aprendizagem de Áudio com M2D e M2D-X

Novos métodos melhoram a representação de áudio através de técnicas de aprendizado auto-supervisionado.

2025-08-12T07:22:50+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Apresentando o PEAVS: Uma Nova Maneira de Medir a Sincronização Áudio-Visual

PEAVS analisa como o áudio e o vídeo funcionam juntos pra melhorar a experiência do espectador.

2025-08-12T03:19:55+00:00 ― 8 min ler

Processamento de Áudio e Fala Melhorando a Reconstrução de Campo Sonoro com IA

Um método que usa IA melhora a representação sonora em vários ambientes.

2025-08-12T00:54:10+00:00 ― 8 min ler

Física Clássica Entendendo os Momentos Espectrais em Testes Eletromagnéticos

Explore o papel dos momentos espectrais em testes de câmara de reverberação e o impacto do ruído.

2025-08-12T00:28:33+00:00 ― 6 min ler

Processamento de Áudio e Fala Modelo Eficiente de Transcrição de Piano em Tempo Real

Um novo sistema para transcrição de piano em tempo real, leve e precisa.

2025-08-12T00:05:35+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Any2Point: Ligando a Compreensão 3D em Modelos de IA

Uma nova estrutura melhora a compreensão da IA em espaços 3D.

2025-08-11T19:14:05+00:00 ― 8 min ler

Som Avanços na Tecnologia de Edição de Atributos de Voz

Novo modelo permite controle preciso das qualidades da voz enquanto mantém o conteúdo.

2025-08-11T18:25:30+00:00 ― 5 min ler

Processamento de Áudio e Fala Avaliação de Modelos de Processamento de Fala com o SUPERB

Um novo modelo pra avaliar modelos de fundação em tarefas de fala.

2025-08-11T09:31:05+00:00 ― 9 min ler

Som Avançando a IA na Geração de Texto para Áudio

Um estudo sobre como melhorar as saídas de áudio a partir de comandos de texto usando otimização de preferências.

2025-08-11T07:05:20+00:00 ― 8 min ler

Som Avanços na Geração Automática de Música Usando IA

Explorando os desenvolvimentos recentes em ferramentas de IA para criação musical.

2025-08-10T16:30:50+00:00 ― 6 min ler

Processamento de Sinal Combinando Sensoriamento Acústico Ativo e Passivo em Robótica

A pesquisa explora a fusão de técnicas sonoras pra melhorar a navegação e o mapeamento de robôs.

2025-08-10T13:16:30+00:00 ― 9 min ler

Som Melhorando a Marcação de Música com Embeddings de Palavras Musicais

Uma nova abordagem melhora a marcação e recuperação de músicas ao combinar termos de linguagem geral e termos musicais.

2025-08-10T06:47:50+00:00 ― 12 min ler

Processamento de Áudio e Fala FlashSpeech: Um Salto na Síntese de Fala

A FlashSpeech oferece soluções de síntese de fala rápidas e de alta qualidade.

2025-08-10T03:33:30+00:00 ― 8 min ler

Som Avanços na Detecção de Deepfake com o Framework RAD

Um novo método melhora a detecção de deepfakes de áudio usando referências de amostras similares.

2025-08-10T01:07:45+00:00 ― 7 min ler

Som Medindo a Virtuosidade na Performance de Guitarra Elétrica

Esse estudo analisa sinais sonoros pra medir a virtuosidade entre guitarristas elétricos.

2025-08-09T18:39:05+00:00 ― 5 min ler

Som Navegando pelas Vulnerabilidades no Reconhecimento de Emoções na Fala

Esse estudo analisa as fraquezas dos modelos SER em relação a ataques adversariais em diferentes línguas.

2025-08-08T21:35:55+00:00 ― 6 min ler

Processamento de Áudio e Fala Avançando a Extração de Falante Alvo Audiovisual com SEANet

O SEANet melhora a isolação do falante reduzindo o ruído no processamento de áudio.

2025-08-08T20:47:20+00:00 ― 8 min ler

Som SemantiCodec: O Próximo Passo em Tecnologia de Áudio

Um novo codec de áudio que oferece compressão de alta qualidade e conteúdo semântico rico.

2025-08-08T19:10:10+00:00 ― 7 min ler

Som Nova Ferramenta Analisa Conteúdo de Áudio e Vídeo

Uma ferramenta que combina análise de áudio e vídeo pra identificar eventos.

2025-08-08T12:41:30+00:00 ― 6 min ler

Processamento de Áudio e Fala Medindo a Absorção de Som: Um Novo Método

Um método para medir como os materiais absorvem som de forma eficaz.

2025-08-08T10:46:48+00:00 ― 6 min ler

Processamento de Áudio e Fala Avançando o ASR: Uma Nova Abordagem de Aprendizado

Um método de aprendizado ativo em duas etapas melhora a precisão do reconhecimento de voz com menos dados.

2025-08-08T02:09:55+00:00 ― 6 min ler

Processamento de Áudio e Fala Avanços na Tecnologia de Aparelhos Auditivos com Aprendizado Profundo

Novos métodos melhoram a clareza da fala em aparelhos auditivos usando técnicas de deep learning.

2025-08-08T01:21:20+00:00 ― 7 min ler

Som Localização de Fonte Sonora: Técnicas e Aplicações

Aprenda sobre técnicas de localização de som e suas aplicações em várias áreas.

2025-08-07T23:44:10+00:00 ― 5 min ler

Som Abordando o Aumento da Detecção de Áudio Deepfake

Novo conjunto de dados e métodos melhoram a detecção de deepfakes de áudio gerados por ALM.

2025-08-07T06:43:55+00:00 ― 7 min ler

Computação e linguagem Avaliação de Sistemas de ASR para Fala Gaguejada

Este estudo avalia o desempenho de sistemas de ASR com pessoas que gaguejam.

2025-08-07T04:18:10+00:00 ― 9 min ler

Computação e linguagem Novo Método de Ataque Silencia Sistemas de ASR

Um clipe de áudio universal pode silenciar modelos avançados de ASR como o Whisper.

2025-08-07T03:29:35+00:00 ― 7 min ler

Som Novo dispositivo melhora a conversa em ambientes barulhentos

Um dispositivo ajuda a focar em vozes específicas em lugares cheios.

2025-08-06T19:23:45+00:00 ― 7 min ler

Som Avançando na Edição de Áudio com Modelos de Difusão

Um novo método melhora a edição de áudio usando modelos de difusão pra mudanças precisas.

2025-08-06T16:09:25+00:00 ― 6 min ler

Computação e linguagem Integrando Modelos de Áudio e Linguagem: SpeechVerse

O SpeechVerse conecta a compreensão de áudio e o processamento de linguagem pra melhorar a interação entre humanos e computadores.

2025-08-06T06:26:25+00:00 ― 7 min ler

Som Avaliando o Viés na Tecnologia de Assistentes de Voz

Novo conjunto de dados destaca as diferenças de desempenho entre grupos demográficos usando assistentes de voz.

2025-08-06T02:23:30+00:00 ― 7 min ler

Computação e linguagem Examinando a Segurança dos Modelos de Linguagem de Fala

Esse artigo investiga vulnerabilidades em modelos de fala e maneiras de aumentar a segurança deles.

2025-08-05T23:09:10+00:00 ― 6 min ler