Le dataset GTZAN-synth utilise de la musique synthétique pour améliorer les systèmes de tagging musical.
― 7 min lire
La science de pointe expliquée simplement
Le dataset GTZAN-synth utilise de la musique synthétique pour améliorer les systèmes de tagging musical.
― 7 min lire
MelodyLM simplifie la création de musique en utilisant des entrées textuelles et vocales.
― 8 min lire
Le modèle SAVE améliore la segmentation audio-visuelle avec efficacité et précision.
― 7 min lire
Nouveau modèle améliore la traduction de la parole en texte en utilisant des grands modèles de langage.
― 8 min lire
La recherche propose un modèle qui relie les enregistrements sonores aux mouvements de la bouche pour la parole.
― 8 min lire
Cet article parle de comment Wav2Vec2.0 traite les sons de la parole en utilisant la phonologie.
― 7 min lire
Améliorer la technologie d'anonymisation des locuteurs pour neuf langues afin de garantir la vie privée.
― 7 min lire
Explorer le rôle de la technologie dans l'amélioration de l'efficacité et du bien-être de l'aquaculture.
― 7 min lire
Une approche novatrice combine l'analyse vocale avec la protection de la vie privée pour détecter la démence.
― 8 min lire
De nouvelles méthodes améliorent la précision pour identifier les sons des animaux pour le suivi de la faune.
― 5 min lire
Une nouvelle méthode améliore la précision dans la reconnaissance de la parole de plusieurs intervenants.
― 6 min lire
Le BPE acoustique améliore l'intelligibilité et la qualité de la parole dans les systèmes TTS.
― 8 min lire
Une nouvelle méthode améliore la clarté de la parole dans des environnements bruyants en utilisant des réseaux de neurones doubles.
― 6 min lire
Une nouvelle méthode améliore la gestion des accents différents par les systèmes ASR grâce à des codebooks spécialisés.
― 6 min lire
De nouvelles méthodes améliorent la précision et l'efficacité des systèmes de reconnaissance vocale.
― 8 min lire
Une nouvelle méthode améliore la localisation sonore dans des environnements variés en se concentrant sur l'apprentissage continu.
― 7 min lire
Une nouvelle méthode améliore la détection d'événements sonores en intégrant efficacement de nouvelles classes audio.
― 8 min lire
WildDESED améliore les systèmes de détection sonore dans des environnements bruyants à la maison.
― 8 min lire
Une étude révèle comment différents genres musicaux activent des zones cérébrales distinctes.
― 7 min lire
Règles essentielles pour soumettre des articles à NeurIPS 2024.
― 5 min lire
Cet article parle d'améliorer la MUSIQUE avec le calcul approximatif pour de meilleures performances.
― 8 min lire
Un nouveau système améliore la précision et l'efficacité de la transcription musicale multi-instruments.
― 6 min lire
Un nouveau modèle améliore la précision des capacités de reconnaissance vocale en texte dans plusieurs langues.
― 6 min lire
Progrès dans la prédiction de la qualité de la parole avec des méthodes efficaces pour les appareils mobiles.
― 6 min lire
Une méthode pour améliorer le timbre dans la production musicale avec des synthés.
― 8 min lire
Cette étude évalue la technologie de la parole dans des langues à faibles ressources comme l'arabe tunisien.
― 6 min lire
Des recherches montrent des risques dans les modèles de parole multi-tâches comme Whisper.
― 6 min lire
TokenVerse simplifie l'analyse des conversations orales en intégrant plusieurs tâches dans un seul modèle.
― 8 min lire
Nouveau jeu de données améliore la génération audio à partir de descriptions textuelles détaillées.
― 6 min lire
Une nouvelle façon pour les artistes de relier créativité et génération audio par IA.
― 7 min lire
Explorer l'impact des modèles TTM sur la création musicale et les expériences utilisateurs.
― 8 min lire
Cet article examine la latence de divers systèmes de diarisation des locuteurs dans le traitement audio.
― 8 min lire
Nouveau jeu de données vise à améliorer la reconnaissance vocale pour les anglophones non natifs.
― 7 min lire
Un nouveau cadre, BiosERC, améliore la reconnaissance des émotions en prenant en compte les traits des interlocuteurs.
― 8 min lire
Cette étude examine comment les préférences vocales varient chez différents auditeurs.
― 6 min lire
Cet article présente une méthode pour générer un son précis à partir de vidéos et de texte.
― 9 min lire
Un nouveau modèle améliore la simulation des instruments à cordes pour un son réaliste.
― 8 min lire
Présentation d'une méthode pour un meilleur contrôle dans l'édition de discours.
― 7 min lire
Une étude sur la classification de la musique par époque en utilisant des caractéristiques audio et des avis d'artistes.
― 8 min lire
Un nouveau modèle améliore l'étude de la communication animale en utilisant des données audio brutes.
― 7 min lire