Artigos mais recentes para Áudio

Som Avançando a Geração de Áudio com o Conjunto de Dados Sound-VECaps

Novo conjunto de dados melhora a geração de áudio a partir de descrições textuais detalhadas.

2025-07-21T07:26:30+00:00 ― 5 min ler

Som Novos Conjuntos de Dados para Reconhecimento de Emoções na Música

Apresentando os conjuntos de dados MERGE pra melhorar a classificação de emoções na música.

2025-07-19T20:37:25+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Tecnologia Deepfake: Oportunidades e Riscos pela Frente

Uma olhada nos métodos de criação e detecção de deepfakes.

2025-07-17T11:43:30+00:00 ― 8 min ler

Gráficos O Impacto do Feedback de Colisão na Realidade Virtual

Analisando como o feedback durante colisões molda a experiência do usuário em espaços VR lotados.

2025-07-16T01:05:48+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Novo Método para Detectar Deepfakes

Uma nova abordagem melhora a detecção de deepfakes usando análise áudio-visual.

2025-07-15T12:10:10+00:00 ― 7 min ler

Som Geração de Som Inovadora para Modelos Humanos em 3D

Um novo método melhora a criação de som para modelos humanos 3D realistas.

2025-07-15T00:01:25+00:00 ― 8 min ler

Computação e linguagem Melhorando a Detecção da Saúde Mental com Dados Multimodais

Um novo método combina texto, emoções e áudio para uma melhor detecção da saúde mental.

2025-07-14T06:42:00+00:00 ― 8 min ler

Inteligência Artificial Fala de Emoção: Apoio Áudio para Sentimentos

Um projeto que oferece apoio emocional por meio de respostas em áudio para quem precisa.

2025-07-14T05:46:42+00:00 ― 6 min ler

Som Geração de Áudio Aberta: Um Novo Modelo

Um novo modelo de texto pra áudio usando só dados públicos.

2025-07-13T11:35:10+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões OmniBind: Uma Nova Abordagem para Dados Multimodais

OmniBind integra vários tipos de dados pra melhorar a compreensão e geração de conteúdo.

2025-07-12T14:16:42+00:00 ― 6 min ler

Processamento de Áudio e Fala Codecs de Fala e Preservação Emocional

Analisando como os codecs mantêm os tons emocionais nos dados de voz.

2025-07-12T06:26:10+00:00 ― 6 min ler

Som Avançando a Detecção de Compressão de Áudio com Perda

Um estudo sobre como melhorar os métodos para detectar compressão de áudio com perdas e melhorar a qualidade do som.

2025-07-07T12:15:55+00:00 ― 7 min ler

Som ChordSync: Sincronizando acordes musicais com áudio

Um novo modelo que sincroniza anotações de acordes com o áudio da música de forma perfeita.

2025-07-06T22:30:00+00:00 ― 7 min ler

Som Nova Método para Detectar Deepfakes Usando Áudio e Vídeo

Uma ferramenta que identifica de forma eficaz conteúdo deepfake através da análise combinada de áudio e visual.

2025-07-06T08:44:05+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Modelo Inovador para Diagnosticar Depressão

Uma nova abordagem junta dados de áudio, vídeo e texto pra um diagnóstico de depressão mais eficaz.

2025-07-06T04:53:12+00:00 ― 9 min ler

Robótica Apresentando o VAT-CMR: Uma Nova Abordagem para Recuperação Cross-Modal

O VAT-CMR permite que robôs busquem itens usando dados visuais, de áudio e táteis.

2025-07-04T20:45:36+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Avanços na Animação Facial 3D Baseada em Áudio

A UniTalker junta conjuntos de dados pra melhorar a precisão da animação facial.

2025-07-03T22:22:36+00:00 ― 8 min ler

Computação e linguagem Avanços em Sistemas de Diálogo Falado

O Style-Talker melhora as conversas entre humanos e máquinas com uma pegada emocional.

2025-07-01T13:45:15+00:00 ― 10 min ler

Visão computacional e reconhecimento de padrões Melhorando a Detecção de Deepfakes com Detalhes Finos

Uma nova abordagem foca em inconsistências sutis na detecção de deepfakes.

2025-07-01T04:02:15+00:00 ― 7 min ler

Interação Homem-Computador Combinando Dados pra Melhor Avaliação da Saúde Mental

Um novo método junta EEG, áudio e expressões faciais pra avaliar a saúde mental.

2025-06-27T18:23:00+00:00 ― 7 min ler

Som Desafios em Detectar Sinais de Fala Parcialmente Falsos

Um olhar sobre as complicações de identificar faixas de áudio misturadas.

2025-06-25T06:20:10+00:00 ― 7 min ler

Som Avanços no Controle de Geração de Áudio

Um novo modelo separa timbre e estrutura pra criar áudio melhor.

2025-06-23T17:24:32+00:00 ― 8 min ler

Robótica RoboMNIST: Um Novo Conjunto de Dados para Reconhecimento de Atividades de Robôs

RoboMNIST ajuda robôs a reconhecer várias atividades usando WiFi, vídeo e áudio.

2025-06-22T09:30:35+00:00 ― 7 min ler

Processamento de Áudio e Fala Avanços na Tecnologia de Áudio: Apresentando o X-Codec

X-Codec melhora a geração de áudio ao integrar compreensão semântica no processamento.

2025-06-21T15:41:45+00:00 ― 6 min ler

Som Avanços na Tecnologia de Extração de Fala do Falante-Alvo

Novos métodos melhoram a separação de vozes em ambientes barulhentos.

2025-06-20T13:47:05+00:00 ― 5 min ler

Som Novo Método para Geração de Fala Eficiente

Um novo sistema gera fala a partir de texto usando dados mínimos.

2025-06-19T04:27:24+00:00 ― 5 min ler

Som Marca d'água em Modelos Generativos de Áudio: Uma Nova Abordagem

Novos métodos de marca d'água protegem os criadores em modelos de áudio generativos.

2025-06-18T23:43:40+00:00 ― 5 min ler

Visão computacional e reconhecimento de padrões Avanços na Geração de Movimento Usando Textos e Entradas de Áudio

Um novo sistema melhora a geração de movimento para animações e experiências virtuais.

2025-06-17T13:21:06+00:00 ― 7 min ler

Som Novo modelo melhora a qualidade do áudio removendo sons de respiração

Um novo modelo simplifica a produção de áudio eliminando automaticamente os sons da respiração.

2025-06-17T10:28:50+00:00 ― 6 min ler

Som Nova Abordagem para Transferência de Timbre Musical

Um método novo melhora a transformação de áudio mantendo a melodia e a qualidade do som.

2025-06-16T05:19:50+00:00 ― 7 min ler

Som Redes Neurais na Modelagem de Reverb Spring

Esse estudo avalia redes neurais para replicar as características de reverb de mola.

2025-06-15T20:24:12+00:00 ― 9 min ler

Som Avanços na Tecnologia de Texto-para-Fala Emocional

ParaEVITS melhora a expressão emocional em TTS através de orientações em linguagem natural.

2025-06-15T05:50:55+00:00 ― 6 min ler

Computação e linguagem Avanços na Segmentação de Tópicos de Notícias Fala

Novos métodos melhoram o acesso às notícias faladas segmentando os tópicos de forma mais eficaz.

2025-06-15T00:59:25+00:00 ― 7 min ler

Processamento de Áudio e Fala Avanços na Extração de Som Alvo com o SoloAudio

O SoloAudio melhora a extração de som usando técnicas avançadas e dados sintéticos.

2025-06-13T17:24:40+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Avanços na Tecnologia de Detecção de Fala Ativa

Novo modelo melhora a detecção de falantes em tempo real e a eficiência na comunicação.

2025-06-12T14:43:12+00:00 ― 6 min ler

Processamento de Áudio e Fala Avanços na Geração de Áudio Baseada em Estilo

Um novo modelo melhora a geração de áudio usando textos e sons detalhados.

2025-06-11T08:43:50+00:00 ― 7 min ler

Som MusicLIME: Uma Nova Ferramenta para Análise de Música com IA

O MusicLIME ajuda a explicar como a IA analisa música através do áudio e das letras.

2025-06-10T00:20:30+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões V-AURA: Avançando a Integração de Vídeo para Áudio

Um novo modelo cria áudio que combina com o vídeo, melhorando as experiências de mídia.

2025-06-05T23:59:05+00:00 ― 5 min ler

Visão computacional e reconhecimento de padrões Melhorando o Aprendizado Online com Alinhamento de Vídeo e Slides

Uma nova abordagem junta vídeos de aula e slides pra melhorar o engajamento dos alunos.

2025-06-02T05:17:45+00:00 ― 7 min ler

Som Integrando Dados Audiovisuais para Processamento de Fala

Esse estudo analisa como áudio, vídeo e texto trabalham juntos no reconhecimento de fala.

2025-05-30T15:13:22+00:00 ― 8 min ler