Engenharia Eletrotécnica e Ciência dos Sistemas - Processamento de Áudio e Fala

RSS

Som Classificando Gêneros Musicais com Tecnologia

Aprenda como a tecnologia ajuda a categorizar gêneros musicais de forma eficiente.

2025-09-14T21:51:50+00:00 ― 7 min ler

Som Novo Modelo Melhora Avaliação da Intensidade de Alimentação de Peixes

Uma abordagem unificada pra avaliar a alimentação dos peixes usando dados de áudio e vídeo.

2025-09-14T21:03:15+00:00 ― 6 min ler

Som Avanços na Tecnologia de Cabeça Falante Emocional

Um novo método melhora a criação de vídeos de talking-head que expressam emoções.

2025-09-14T15:23:10+00:00 ― 8 min ler

Aprendizagem de máquinas Desafios em Usar Convnets para Design de Filtros de Áudio

Este estudo explora problemas com o uso de convnets para a criação de filtro de áudio.

2025-09-14T14:34:35+00:00 ― 6 min ler

Som Avanços em Modelos de Áudio e Linguagem

O modelo CLAP conecta o processamento de áudio e texto pra várias aplicações.

2025-09-14T13:46:00+00:00 ― 5 min ler

Computação e linguagem Avanços em Aprendizado Auto-Supervisionado para Tecnologias de Fala em Francês

Um projeto tem como objetivo melhorar o processamento de fala em francês usando aprendizado auto-supervisionado.

2025-09-14T12:57:25+00:00 ― 6 min ler

Processamento de Áudio e Fala Avanços na Anotação Automática de Prosódia

Novos métodos melhoram como as máquinas reconhecem o ritmo da fala e a emoção.

2025-09-14T12:08:50+00:00 ― 7 min ler

Som Novo Método para Estimativa de Som em Ambientes Dispersos

Uma nova abordagem melhora a estimativa de som em espaços com objetos que refletem.

2025-09-14T06:28:45+00:00 ― 6 min ler

Som O Impacto da Indecidibilidade na Produção Musical

Analisa como a indecidibilidade influencia a composição musical e a produção hoje em dia.

2025-09-14T05:40:10+00:00 ― 5 min ler

Processamento de Áudio e Fala Melhorando a Diarização de Falantes com Modelos de Linguagem

Esse artigo explora avanços na diarização de falantes usando modelos de linguagem pra ter mais precisão.

2025-09-14T03:14:25+00:00 ― 5 min ler

Processamento de Áudio e Fala Avanços no Reconhecimento de Fala para Crianças

Esse estudo melhora a capacidade dos sistemas de ASR em reconhecer a fala das crianças.

2025-09-14T02:25:50+00:00 ― 7 min ler

Processamento de Áudio e Fala O Papel do Áudio na Detecção de Pedestres

Pesquisadores estão explorando a tecnologia de detecção de áudio para melhorar a identificação de pedestres em áreas urbanas.

2025-09-14T00:48:40+00:00 ― 6 min ler

Processamento de Áudio e Fala Avanços nas Técnicas de Gravação de Campo Sonoro

Novo método melhora a localização de fonte sonora e separação de campo.

2025-09-13T20:45:45+00:00 ― 7 min ler

Som Avanços na Sintetização de Sons Percussivos

Um novo método melhora a síntese do som de bateria focando em elementos transientes agudos.

2025-09-13T19:57:10+00:00 ― 6 min ler

Som Criando Conjuntos de Dados de Voz Sintética que Respeitam a Privacidade

Pesquisadores estão criando dados de voz sintética pra proteger a privacidade no reconhecimento de voz.

2025-09-13T15:05:40+00:00 ― 7 min ler

Processamento de Áudio e Fala VoxtLM: Uma Abordagem Unificada para Fala e Texto

VoxtLM combina reconhecimento de fala, síntese, geração de texto e continuação em um só modelo.

2025-09-13T11:02:45+00:00 ― 5 min ler

Processamento de Áudio e Fala PromptASR: Tecnologia de Reconhecimento de Fala de Outro Nível

Novo sistema melhora o reconhecimento de fala usando prompts que levam em conta o contexto.

2025-09-13T10:14:10+00:00 ― 5 min ler

Som Avanços nos Modelos de Áudio Universal

EnCodecMAE combina aprendizado auto-supervisionado e codecs de áudio pra melhorar o desempenho em tarefas de áudio.

2025-09-13T09:25:35+00:00 ― 6 min ler

Processamento de Áudio e Fala Avançando o Diagnóstico do Autismo Através do Reconhecimento de Som

Um estudo sobre como usar aprendizado de máquina pra identificar os sons das crianças na avaliação do TEA.

2025-09-13T07:48:25+00:00 ― 6 min ler

Processamento de Áudio e Fala Uma Nova Abordagem para Identificação de Palavras-Chave

Apresentando um método flexível para reconhecer palavras-chave na fala em diferentes idiomas.

2025-09-13T06:11:15+00:00 ― 7 min ler

Processamento de Áudio e Fala Avaliando a Qualidade do Fala na Comunicação Áudio

Um olhar sobre como a qualidade da fala é testada usando crowdsourcing.

2025-09-13T05:22:40+00:00 ― 6 min ler

Processamento de Áudio e Fala Avanços na Legenda de Áudio com Treinamento Só de Texto

Um novo método treina sistemas de legendagem de áudio usando só descrições em texto.

2025-09-13T02:56:55+00:00 ― 7 min ler

Som Passos Essenciais para Escrever Trabalhos Acadêmicos

Um guia pra fazer trabalhos acadêmicos claros e eficazes.

2025-09-13T01:19:45+00:00 ― 4 min ler

Criptografia e segurança Ataques de Backdoor: Uma Ameaça Oculta para a Verificação de Voz

Examinando os riscos de ataques via backdoor em sistemas de verificação de voz.

2025-09-12T22:54:00+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões Avanços nas técnicas de segmentação áudio-visual

Um novo método melhora a segmentação áudio-visual sem precisar de rótulos detalhados.

2025-09-12T20:28:15+00:00 ― 6 min ler

Som Novo sistema melhora a extração de voz de posições de cabeça instáveis

A PIAVE ajuda máquinas a captar vozes com clareza, mesmo quando as pessoas viram a cabeça.

2025-09-12T19:39:40+00:00 ― 7 min ler

Processamento de Áudio e Fala Libriheavy: Um Novo Conjunto de Dados para Reconhecimento de Fala

A Libriheavy oferece 50.000 horas de inglês falado pra melhorar a tecnologia de reconhecimento de fala.

2025-09-12T18:51:05+00:00 ― 6 min ler

Processamento de Áudio e Fala Melhorando a Clareza da Fala com a Tecnologia AV2Wav

O AV2Wav melhora a qualidade da fala usando dicas sonoras e visuais.

2025-09-12T17:13:55+00:00 ― 6 min ler

Processamento de Áudio e Fala EmoConv-Diff: Uma Nova Maneira de Mudar Emoções na Fala

Um jeito novo de as máquinas mudarem emoções na fala de forma natural.

2025-09-12T16:25:20+00:00 ― 6 min ler

Som Detectando Vozes Cantadas Geradas por IA

Novos métodos estão sendo desenvolvidos pra identificar vozes cantando deepfake na indústria da música.

2025-09-12T14:48:10+00:00 ― 7 min ler

Som Otimizando Texto para Fala com Seleção de Core-Set

A seleção de core-set melhora os modelos de texto-para-fala ao focar em dados diversos.

2025-09-12T08:19:30+00:00 ― 6 min ler

Som Avanços em Sistemas de Reconhecimento de Emoções na Fala

Novos modelos estão mudando a forma como analisamos emoções na fala.

2025-09-12T07:30:55+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Reconhecimento de Ação com Foco na Privacidade usando Tecnologia de Ultrassom

Um novo método usa ultrassom para reconhecer ações enquanto protege a privacidade.

2025-09-12T06:42:20+00:00 ― 6 min ler

Som Uma Nova Estrutura para Anonimização de Locutores

Apresentando uma estrutura flexível para aprimorar a pesquisa em privacidade de voz.

2025-09-12T05:05:10+00:00 ― 8 min ler

Som CiwaGAN: Um Novo Modelo para Aprendizado de Fala

CiwaGAN combina o controle dos movimentos da fala e o compartilhamento de informações pra aprender a falar melhor.

2025-09-12T04:16:35+00:00 ― 7 min ler

Computação e linguagem IntraVerbalPA: Uma Nova Abordagem para Avaliação de Pronúncia

Uma estrutura que mistura pistas verbais e não verbais pra melhorar o aprendizado de línguas.

2025-09-12T03:28:00+00:00 ― 7 min ler

Computação e linguagem Melhorando Explicações para Modelos de Fala

Um novo método facilita a compreensão dos modelos de classificação de fala.

2025-09-12T02:39:25+00:00 ― 7 min ler

Computação e linguagem Melhorando a Aprendizagem de Línguas com L1-MultiMDD

Um novo sistema melhora as habilidades de pronúncia levando em conta as influências da língua materna.

2025-09-12T01:50:50+00:00 ― 6 min ler

Tecnologias emergentes Computação Quântica Encontra Composição Musical

Descubra como ferramentas quânticas mudam a criação e a performance musical.

2025-09-12T00:31:30+00:00 ― 7 min ler

Processamento de Áudio e Fala Avanços na Tecnologia de Conversão de Voz

Novo método melhora a preservação de emoções em processos de conversão de voz.

2025-09-12T00:13:40+00:00 ― 6 min ler