Informática - Som

RSS

Som Avanços na Separação de Voz com NASS

O NASS melhora a isolação de voz em ambientes barulhentos, superando métodos tradicionais.

2025-11-07T15:45:05+00:00 ― 5 min ler

Som Atualizando Métricas de Qualidade de Som pra Mais Precisão

Melhorando as métricas de qualidade de som usando novos métodos de cálculo de loudness.

2025-11-07T12:30:45+00:00 ― 6 min ler

Computação e linguagem Avanços na Tradução de Fala em Tempo Real

O AlignAtt melhora a tradução de fala simultânea com mais rapidez e qualidade.

2025-11-07T11:42:10+00:00 ― 6 min ler

Som Equilibrando Privacidade e Eficiência em Modelos de Fala

Um novo método garante privacidade na classificação de fala sem perder desempenho.

2025-11-07T10:05:00+00:00 ― 7 min ler

Som Adaptando os sotaques do Texto para Fala na boa

Esse estudo mostra como adaptar a tecnologia TTS a diferentes sotaques de forma eficiente.

2025-11-07T09:16:25+00:00 ― 6 min ler

Interação Homem-Computador Avançando Agentes Sociais Interativos com o Modelo AMII

O modelo AMII melhora a comunicação para agentes socialmente interativos através de um comportamento não verbal mais aprimorado.

2025-11-07T08:27:50+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Um Novo Modelo para Processamento de Dados Multi-Modais

Apresentando um modelo que integra vários tipos de dados para tarefas complexas.

2025-11-07T05:13:30+00:00 ― 6 min ler

Som Avanços na Detecção de Som Bioacústico

Os pesquisadores estão melhorando a forma como detectamos sons de animais automaticamente.

2025-11-07T05:03:27+00:00 ― 8 min ler

Processamento de Áudio e Fala As Habilidades de Reconhecimento de Fala Versáteis do Whisper

Descubra como o Whisper se adapta a várias tarefas de fala usando engenharia de prompt.

2025-11-07T04:24:55+00:00 ― 6 min ler

Processamento de Áudio e Fala FastFit: Uma Nova Abordagem para Geração de Fala

O FastFit melhora a velocidade de geração de fala sem perder a qualidade do som.

2025-11-07T00:22:00+00:00 ― 6 min ler

Processamento de Áudio e Fala Avanços na Detecção de Palavras-Chave com TACos

Um novo método melhora a detecção de palavras-chave em gravações de áudio.

2025-11-06T23:33:25+00:00 ― 6 min ler

Som Avanços na Diarização de Falantes com AED-EEND

O sistema AED-EEND melhora a diarização de falantes ao integrar técnicas avançadas pra uma precisão maior.

2025-11-06T20:19:05+00:00 ― 6 min ler

Processamento de Áudio e Fala Pengi: Conectando Áudio e Processamento de Texto

O Pengi junta a compreensão de áudio e a geração de texto em um único modelo.

2025-11-06T19:30:30+00:00 ― 8 min ler

Processamento de Áudio e Fala Avançando a Detecção de Palavras-chave com Aprendizado Contínuo

Um novo método melhora os sistemas de detecção de palavras-chave para ter um desempenho melhor em áudios que mudam.

2025-11-06T17:04:45+00:00 ― 5 min ler

Som Avanços na tecnologia de texto para fala multilíngue

Um novo sistema TTS melhora a geração de fala em várias línguas com dados limitados.

2025-11-06T13:50:25+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Diffusão Composicional: Uma Nova Fronteira na Criação de Conteúdo

CoDi permite a geração simultânea de diferentes tipos de conteúdo a partir de várias entradas.

2025-11-06T13:01:50+00:00 ― 5 min ler

Som Avanços na Separação de Sons Usando Deep Learning

Novas técnicas melhoram a separação de som em mixes de Ambisonics pra uma experiência de áudio melhor.

2025-11-06T12:13:15+00:00 ― 8 min ler

Som Avanços na Monitorização de Saúde por Voz

Novos métodos usando fala mostram potencial pra identificar padrões de respiração e condições de saúde.

2025-11-06T10:36:05+00:00 ― 5 min ler

Som MIDI-Draw: Uma Nova Forma de Criar Melodias

O MIDI-Draw permite que qualquer um faça música desenhando melodias de forma intuitiva.

2025-11-06T09:47:30+00:00 ― 5 min ler

Som Métodos Inovadores para Avaliar a Qualidade do Áudio

Novas técnicas que pegam emprestado da processamento de imagem melhoram a avaliação da qualidade de áudio.

2025-11-06T08:58:55+00:00 ― 7 min ler

Processamento de Áudio e Fala Avanços no Processamento de Fala com Dados Visuais

Novos métodos melhoram a compreensão da fala pelas máquinas usando pistas de áudio e visuais.

2025-11-06T07:21:45+00:00 ― 6 min ler

Processamento de Áudio e Fala Avanços na Detecção de Palavras-Chave em Ambientes Barulhentos

Novo modelo melhora o reconhecimento de palavras-chave em ambientes acústicos desafiadores.

2025-11-06T04:07:25+00:00 ― 7 min ler

Computação e linguagem Melhorando a Compreensão da Fala com Destilação de Conhecimento

Um novo método melhora os modelos de fala transferindo conhecimento de modelos de texto.

2025-11-06T01:41:40+00:00 ― 6 min ler

Processamento de Áudio e Fala Coswara Dataset: Ferramenta Inovadora para Detecção de COVID-19

Uma coleção de sons respiratórios ajuda a identificar casos de COVID-19.

2025-11-06T00:12:57+00:00 ― 5 min ler

Som ACA-Net: Avançando Sistemas de Verificação de Falantes

Um novo modelo melhora a verificação de fala com técnicas eficientes.

2025-11-05T23:15:55+00:00 ― 6 min ler

Som Avanços em Sistemas de Reconhecimento de Voz para o Desafio VoxCeleb

Uma olhada detalhada nas técnicas de reconhecimento de fala desenvolvidas para a competição de 2022.

2025-11-05T21:38:45+00:00 ― 6 min ler

Processamento de Áudio e Fala Melhorando a Compreensão de Fala e Emoção pela IA

Uma nova abordagem ensina a IA a reconhecer melhor a fala e as emoções em ambientes barulhentos.

2025-11-05T17:35:50+00:00 ― 6 min ler

Processamento de Áudio e Fala Análise de Áudio Inovadora para Interação Familiar

Novos métodos buscam melhorar a compreensão das dinâmicas familiares e da saúde mental das crianças.

2025-11-05T16:47:15+00:00 ― 8 min ler

Processamento de Áudio e Fala Avanços em Sistemas de Proteção de Caixas de Som

Novas técnicas de deep learning melhoram previsões dos movimentos do diafragma do falante.

2025-11-05T16:10:24+00:00 ― 6 min ler

Computação e linguagem Aproveitando o ciwGAN para Análise Fonológica

Explorando como o ciwGAN pode aprender e representar características fonológicas como a nasalidade.

2025-11-05T15:10:05+00:00 ― 5 min ler

Processamento de Áudio e Fala Avanços no Reconhecimento de Fala com MH-SSM

Um novo modelo melhora a eficiência e a precisão do reconhecimento de fala.

2025-11-05T14:21:30+00:00 ― 5 min ler

Processamento de Áudio e Fala Avançando o Reconhecimento de Fala com Insights Contextuais

Um novo método melhora a precisão do reconhecimento de fala usando informações contextuais.

2025-11-05T13:32:55+00:00 ― 6 min ler

Som Simulando Fala Barulhenta pra Melhor Reconhecimento

Pesquisadores usam GANs pra gerar fala com ruído a partir de áudio limpo, melhorando modelos de fala.

2025-11-05T12:44:20+00:00 ― 6 min ler

Som Apresentando o JNV Corpus: Uma Nova Coleção de Vocalizações Não Verbais Japonesas

O corpus JNV captura sons emocionais diversos em japonês, enriquecendo as coleções existentes.

2025-11-05T11:55:45+00:00 ― 7 min ler

Som Avanços na Síntese de Risadas Realistas

Novos métodos melhoram a geração de risadas para interações mais reais entre humanos e computadores.

2025-11-05T11:07:10+00:00 ― 6 min ler

Som Detectando Fala Sintética: Desafios e Soluções

Um olhar sobre como identificar áudio falso no mundo tecnológico de hoje.

2025-11-05T10:18:35+00:00 ― 5 min ler

Som Avanços no Reconhecimento de Emoções na Fala com LGFA

Um novo método melhora a detecção de emoções na fala através de técnicas avançadas de transformadores.

2025-11-05T10:09:24+00:00 ― 6 min ler

Computação e linguagem Aprimorando Modelos de Fala com Conhecimento de Texto

Usando modelos de texto pra melhorar a geração de fala e facilitar a compreensão.

2025-11-05T09:30:00+00:00 ― 9 min ler

Aprendizagem de máquinas Avançando o Aprendizado Multi-modal com C-MCR

O C-MCR simplifica a aprendizagem multimodal conectando o conhecimento já existente de forma eficiente.

2025-11-05T03:49:55+00:00 ― 7 min ler

Som FluentSpeech: Uma Nova Abordagem pra Eliminar a Gagueira

FluentSpeech oferece uma solução automática para editar falas de forma mais tranquila.

2025-11-05T02:12:45+00:00 ― 8 min ler