Informática - Som

Som Medindo a Adesão em Modelos de Música Generativa

Uma nova forma de avaliar como a música segue os comandos de áudio.

2025-08-13T23:03:25+00:00 ― 10 min ler

Visão computacional e reconhecimento de padrões Apresentando o Conjunto de Dados 360+x para uma Compreensão de Cena Aprimorada

Um novo conjunto de dados melhora a forma como os robôs interpretam ambientes do mundo real.

2025-08-13T18:11:55+00:00 ― 8 min ler

Som Nova Abordagem para Separação de Áudio Usando Linguagem

Esse método melhora a separação de áudio juntando descrições de linguagem com a análise de som.

2025-08-13T14:57:35+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Apresentando o UniAV: Uma Abordagem Unificada para Localização de Vídeos

UniAV combina localização de ações, detecção de som e localização de eventos audiovisuais pra uma melhor compreensão de vídeos.

2025-08-13T10:06:05+00:00 ― 9 min ler

Processamento de Áudio e Fala CLaM-TTS: Avançando a Tecnologia de Texto para Fala

O CLaM-TTS melhora a síntese de fala usando técnicas avançadas pra mais eficiência e qualidade.

2025-08-13T08:28:55+00:00 ― 7 min ler

Redes Sociais e de Informação Analisando Música Através de Gráficos

Gráficos permitem novas ideias sobre a estrutura da música e suas relações.

2025-08-13T03:09:57+00:00 ― 6 min ler

Processamento de Áudio e Fala Melhorando o Texto para Fala com RALL-E

RALL-E melhora a síntese de texto para fala pra deixar a fala mais clara e natural.

2025-08-13T01:11:40+00:00 ― 6 min ler

Som Avanços na Modelagem de Áudio Analógico Virtual

Explorando técnicas de aprendizado de máquina pra modelar efeitos de áudio analógico.

2025-08-12T22:37:18+00:00 ― 7 min ler

Som MuPT: Avançando a Geração de Música com Notação ABC

MuPT usa a notação ABC pra gerar música com IA de jeito eficaz.

2025-08-12T09:00:00+00:00 ― 6 min ler

Processamento de Áudio e Fala Avançando a Aprendizagem de Áudio com M2D e M2D-X

Novos métodos melhoram a representação de áudio através de técnicas de aprendizado auto-supervisionado.

2025-08-12T07:22:50+00:00 ― 7 min ler

Processamento de Áudio e Fala Melhorando a Reconstrução de Campo Sonoro com IA

Um método que usa IA melhora a representação sonora em vários ambientes.

2025-08-12T00:54:10+00:00 ― 8 min ler

Física Clássica Entendendo os Momentos Espectrais em Testes Eletromagnéticos

Explore o papel dos momentos espectrais em testes de câmara de reverberação e o impacto do ruído.

2025-08-12T00:28:33+00:00 ― 6 min ler

Processamento de Áudio e Fala Modelo Eficiente de Transcrição de Piano em Tempo Real

Um novo sistema para transcrição de piano em tempo real, leve e precisa.

2025-08-12T00:05:35+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Any2Point: Ligando a Compreensão 3D em Modelos de IA

Uma nova estrutura melhora a compreensão da IA em espaços 3D.

2025-08-11T19:14:05+00:00 ― 8 min ler

Som Avanços na Tecnologia de Edição de Atributos de Voz

Novo modelo permite controle preciso das qualidades da voz enquanto mantém o conteúdo.

2025-08-11T18:25:30+00:00 ― 5 min ler

Som Avançando a IA na Geração de Texto para Áudio

Um estudo sobre como melhorar as saídas de áudio a partir de comandos de texto usando otimização de preferências.

2025-08-11T07:05:20+00:00 ― 8 min ler

Som Avanços na Geração Automática de Música Usando IA

Explorando os desenvolvimentos recentes em ferramentas de IA para criação musical.

2025-08-10T16:30:50+00:00 ― 6 min ler

Som Melhorando a Marcação de Música com Embeddings de Palavras Musicais

Uma nova abordagem melhora a marcação e recuperação de músicas ao combinar termos de linguagem geral e termos musicais.

2025-08-10T06:47:50+00:00 ― 12 min ler

Processamento de Áudio e Fala FlashSpeech: Um Salto na Síntese de Fala

A FlashSpeech oferece soluções de síntese de fala rápidas e de alta qualidade.

2025-08-10T03:33:30+00:00 ― 8 min ler

Som Avanços na Detecção de Deepfake com o Framework RAD

Um novo método melhora a detecção de deepfakes de áudio usando referências de amostras similares.

2025-08-10T01:07:45+00:00 ― 7 min ler

Som Medindo a Virtuosidade na Performance de Guitarra Elétrica

Esse estudo analisa sinais sonoros pra medir a virtuosidade entre guitarristas elétricos.

2025-08-09T18:39:05+00:00 ― 5 min ler

Som Análise de Voz Inovadora para Detecção Precoce de Parkinson

Pesquisas mostram que analisar a fala pode ajudar a identificar a doença de Parkinson mais cedo.

2025-08-09T16:24:42+00:00 ― 6 min ler

Som Navegando pelas Vulnerabilidades no Reconhecimento de Emoções na Fala

Esse estudo analisa as fraquezas dos modelos SER em relação a ataques adversariais em diferentes línguas.

2025-08-08T21:35:55+00:00 ― 6 min ler

Processamento de Áudio e Fala Avançando a Extração de Falante Alvo Audiovisual com SEANet

O SEANet melhora a isolação do falante reduzindo o ruído no processamento de áudio.

2025-08-08T20:47:20+00:00 ― 8 min ler

Som SemantiCodec: O Próximo Passo em Tecnologia de Áudio

Um novo codec de áudio que oferece compressão de alta qualidade e conteúdo semântico rico.

2025-08-08T19:10:10+00:00 ― 7 min ler

Som Nova Ferramenta Analisa Conteúdo de Áudio e Vídeo

Uma ferramenta que combina análise de áudio e vídeo pra identificar eventos.

2025-08-08T12:41:30+00:00 ― 6 min ler

Processamento de Áudio e Fala Medindo a Absorção de Som: Um Novo Método

Um método para medir como os materiais absorvem som de forma eficaz.

2025-08-08T10:46:48+00:00 ― 6 min ler

Processamento de Áudio e Fala Avanços na Tecnologia de Aparelhos Auditivos com Aprendizado Profundo

Novos métodos melhoram a clareza da fala em aparelhos auditivos usando técnicas de deep learning.

2025-08-08T01:21:20+00:00 ― 7 min ler

Som Localização de Fonte Sonora: Técnicas e Aplicações

Aprenda sobre técnicas de localização de som e suas aplicações em várias áreas.

2025-08-07T23:44:10+00:00 ― 5 min ler

Som Abordando o Aumento da Detecção de Áudio Deepfake

Novo conjunto de dados e métodos melhoram a detecção de deepfakes de áudio gerados por ALM.

2025-08-07T06:43:55+00:00 ― 7 min ler

Computação e linguagem Novo Método de Ataque Silencia Sistemas de ASR

Um clipe de áudio universal pode silenciar modelos avançados de ASR como o Whisper.

2025-08-07T03:29:35+00:00 ― 7 min ler

Som Novo dispositivo melhora a conversa em ambientes barulhentos

Um dispositivo ajuda a focar em vozes específicas em lugares cheios.

2025-08-06T19:23:45+00:00 ― 7 min ler

Som Avançando na Edição de Áudio com Modelos de Difusão

Um novo método melhora a edição de áudio usando modelos de difusão pra mudanças precisas.

2025-08-06T16:09:25+00:00 ― 6 min ler

Computação e linguagem Integrando Modelos de Áudio e Linguagem: SpeechVerse

O SpeechVerse conecta a compreensão de áudio e o processamento de linguagem pra melhorar a interação entre humanos e computadores.

2025-08-06T06:26:25+00:00 ― 7 min ler

Som Avaliando o Viés na Tecnologia de Assistentes de Voz

Novo conjunto de dados destaca as diferenças de desempenho entre grupos demográficos usando assistentes de voz.

2025-08-06T02:23:30+00:00 ― 7 min ler

Computação e linguagem Examinando a Segurança dos Modelos de Linguagem de Fala

Esse artigo investiga vulnerabilidades em modelos de fala e maneiras de aumentar a segurança deles.

2025-08-05T23:09:10+00:00 ― 6 min ler

Aprendizagem de máquinas Abordando a Alucinação em Modelos de IA

Entender e minimizar alucinações em IA pra um desempenho mais confiável.

2025-08-05T17:29:05+00:00 ― 9 min ler

Som Novo Método Usa Gráficos para Análise Musical

Uma nova abordagem usa redes neurais convolucionais em grafos pra analisar dados musicais de forma eficiente.

2025-08-05T15:51:55+00:00 ― 10 min ler

Processamento de Áudio e Fala Avanços nas Técnicas de Correspondência Áudio-Texto

Novos métodos melhoram as conexões entre clipes de áudio e descrições em texto.

2025-08-05T14:14:45+00:00 ― 6 min ler

Processamento de Áudio e Fala Melhorando a Transcrição da Voz Cantada com o Modelo ROSVOT

O ROSVOT melhora a precisão na transcrição de vozes cantando, mesmo em ambientes barulhentos.

2025-08-05T10:11:50+00:00 ― 7 min ler