GigaSpeech 2 propose un énorme jeu de données pour les langues peu répandues afin d'améliorer la reconnaissance vocale.
― 6 min lire
La science de pointe expliquée simplement
GigaSpeech 2 propose un énorme jeu de données pour les langues peu répandues afin d'améliorer la reconnaissance vocale.
― 6 min lire
Un nouveau modèle améliore la technologie de synthèse vocale avec efficacité et adaptabilité.
― 8 min lire
Une nouvelle méthode qui optimise l'analyse et la synthèse de la parole en utilisant les mouvements du tractus vocal.
― 9 min lire
Cette étude examine comment les gestes influencent l'apprentissage avec des agents virtuels.
― 8 min lire
Découvre la diarisation de locuteur en ligne et son importance dans diverses applications.
― 8 min lire
Un nouvel outil de référence évalue les tokens audio discrets pour diverses tâches de traitement de la parole.
― 11 min lire
Une nouvelle méthode pour générer de la musique en utilisant des matrices d'auto-similarité et des systèmes d'attention.
― 9 min lire
De nouvelles techniques améliorent la modélisation des amplis de guitare en utilisant des données non appariées et des GAN.
― 9 min lire
Une nouvelle méthode pour comprendre comment les modèles audio font des prédictions.
― 6 min lire
Introduction de la conversion de voix spatiale pour améliorer le réalisme audio et l'immersion.
― 7 min lire
Des recherches examinent comment l'analyse de la parole peut prédire le risque de suicide, en tenant compte des différences de genre.
― 6 min lire
Ce document présente un système pour créer des visuels qui réagissent à la musique.
― 9 min lire
Un nouveau système aide les robots à apprendre des tâches en utilisant des audio de démonstrations réelles.
― 9 min lire
De nouvelles méthodes améliorent la précision dans la reconnaissance des sons qui se chevauchent à partir de diverses sources audio.
― 8 min lire
Une nouvelle méthode combine des caractéristiques acoustiques et des scores de confiance pour une meilleure correction des erreurs.
― 6 min lire
SecureSpectra propose une nouvelle façon de protéger l'identité audio contre les menaces des deepfakes.
― 7 min lire
Combiner la physique et la géométrie pour améliorer les prévisions de diffusion acoustique.
― 7 min lire
Un nouveau système pour une traduction rapide et précise de la parole dans plusieurs langues.
― 7 min lire
Une méthode simple pour créer des voix et contrôler les émotions dans la synthèse vocale.
― 7 min lire
Améliorer MMDenseNet pour une séparation musicale rapide et efficace.
― 7 min lire
Une nouvelle méthode améliore le dialogue machine grâce à des données pseudo-stéréo.
― 8 min lire
Cette étude présente un ensemble de données et une méthode pour améliorer la précision de la reconnaissance vocale chinoise en utilisant le Pinyin.
― 9 min lire
Des techniques innovantes améliorent la conception des haut-parleurs et la direction du son.
― 5 min lire
Cette étude se concentre sur l'amélioration de la détection des faux audios en utilisant des méthodes avancées.
― 6 min lire
Utiliser des interfaces visuelles et des modèles pour améliorer la génération de musique.
― 7 min lire
Un nouveau cadre pour créer des effets sonores synchronisés dans des vidéos.
― 7 min lire
Une étude sur l'amélioration de la segmentation audio en intégrant des embeddings de locuteurs.
― 7 min lire
Cet article présente un système TTS plus efficace qui s'adapte aux intervenants.
― 7 min lire
De nouvelles méthodes améliorent les modèles de parole pour les langues avec peu de données.
― 7 min lire
Comprendre l'incertitude améliore la précision de la reconnaissance des émotions dans des situations réelles.
― 8 min lire
Une nouvelle méthode améliore la précision de l'alignement des phonèmes pour différentes applications de la parole.
― 7 min lire
Une étude sur la traduction de l'anglais nigérian pour une meilleure accessibilité dans les films de Nollywood.
― 7 min lire
Cet article présente un système à double encodeur pour un apprentissage efficace de la représentation de la parole.
― 7 min lire
MelodyT5 propose une nouvelle approche pour créer et analyser de la musique en utilisant une notation symbolique.
― 7 min lire
Le dataset GTZAN-synth utilise de la musique synthétique pour améliorer les systèmes de tagging musical.
― 7 min lire
MelodyLM simplifie la création de musique en utilisant des entrées textuelles et vocales.
― 8 min lire
Le modèle SAVE améliore la segmentation audio-visuelle avec efficacité et précision.
― 7 min lire
Nouveau modèle améliore la traduction de la parole en texte en utilisant des grands modèles de langage.
― 8 min lire
La recherche propose un modèle qui relie les enregistrements sonores aux mouvements de la bouche pour la parole.
― 8 min lire
Cet article parle de comment Wav2Vec2.0 traite les sons de la parole en utilisant la phonologie.
― 7 min lire