Cet article présente un système TTS plus efficace qui s'adapte aux intervenants.
― 7 min lire
La science de pointe expliquée simplement
Cet article présente un système TTS plus efficace qui s'adapte aux intervenants.
― 7 min lire
De nouvelles méthodes améliorent les modèles de parole pour les langues avec peu de données.
― 7 min lire
Comprendre l'incertitude améliore la précision de la reconnaissance des émotions dans des situations réelles.
― 8 min lire
Une nouvelle méthode améliore la précision de l'alignement des phonèmes pour différentes applications de la parole.
― 7 min lire
Une étude sur la traduction de l'anglais nigérian pour une meilleure accessibilité dans les films de Nollywood.
― 7 min lire
Cet article présente un système à double encodeur pour un apprentissage efficace de la représentation de la parole.
― 7 min lire
MelodyT5 propose une nouvelle approche pour créer et analyser de la musique en utilisant une notation symbolique.
― 7 min lire
Le dataset GTZAN-synth utilise de la musique synthétique pour améliorer les systèmes de tagging musical.
― 7 min lire
MelodyLM simplifie la création de musique en utilisant des entrées textuelles et vocales.
― 8 min lire
Le modèle SAVE améliore la segmentation audio-visuelle avec efficacité et précision.
― 7 min lire
Nouveau modèle améliore la traduction de la parole en texte en utilisant des grands modèles de langage.
― 8 min lire
La recherche propose un modèle qui relie les enregistrements sonores aux mouvements de la bouche pour la parole.
― 8 min lire
Cet article parle de comment Wav2Vec2.0 traite les sons de la parole en utilisant la phonologie.
― 7 min lire
Améliorer la technologie d'anonymisation des locuteurs pour neuf langues afin de garantir la vie privée.
― 7 min lire
Explorer le rôle de la technologie dans l'amélioration de l'efficacité et du bien-être de l'aquaculture.
― 7 min lire
Une approche novatrice combine l'analyse vocale avec la protection de la vie privée pour détecter la démence.
― 8 min lire
De nouvelles méthodes améliorent la précision pour identifier les sons des animaux pour le suivi de la faune.
― 5 min lire
Une nouvelle méthode améliore la précision dans la reconnaissance de la parole de plusieurs intervenants.
― 6 min lire
Le BPE acoustique améliore l'intelligibilité et la qualité de la parole dans les systèmes TTS.
― 8 min lire
Une nouvelle méthode améliore la clarté de la parole dans des environnements bruyants en utilisant des réseaux de neurones doubles.
― 6 min lire
Une nouvelle méthode améliore la gestion des accents différents par les systèmes ASR grâce à des codebooks spécialisés.
― 6 min lire
De nouvelles méthodes améliorent la précision et l'efficacité des systèmes de reconnaissance vocale.
― 8 min lire
Une nouvelle méthode améliore la localisation sonore dans des environnements variés en se concentrant sur l'apprentissage continu.
― 7 min lire
Une nouvelle méthode améliore la détection d'événements sonores en intégrant efficacement de nouvelles classes audio.
― 8 min lire
WildDESED améliore les systèmes de détection sonore dans des environnements bruyants à la maison.
― 8 min lire
Une étude révèle comment différents genres musicaux activent des zones cérébrales distinctes.
― 7 min lire
Règles essentielles pour soumettre des articles à NeurIPS 2024.
― 5 min lire
Cet article parle d'améliorer la MUSIQUE avec le calcul approximatif pour de meilleures performances.
― 8 min lire
Un nouveau système améliore la précision et l'efficacité de la transcription musicale multi-instruments.
― 6 min lire
Un nouveau modèle améliore la précision des capacités de reconnaissance vocale en texte dans plusieurs langues.
― 6 min lire
Progrès dans la prédiction de la qualité de la parole avec des méthodes efficaces pour les appareils mobiles.
― 6 min lire
Une méthode pour améliorer le timbre dans la production musicale avec des synthés.
― 8 min lire
Cette étude évalue la technologie de la parole dans des langues à faibles ressources comme l'arabe tunisien.
― 6 min lire
Des recherches montrent des risques dans les modèles de parole multi-tâches comme Whisper.
― 6 min lire
TokenVerse simplifie l'analyse des conversations orales en intégrant plusieurs tâches dans un seul modèle.
― 8 min lire
Nouveau jeu de données améliore la génération audio à partir de descriptions textuelles détaillées.
― 6 min lire
Une nouvelle façon pour les artistes de relier créativité et génération audio par IA.
― 7 min lire
Explorer l'impact des modèles TTM sur la création musicale et les expériences utilisateurs.
― 8 min lire
Cet article examine la latence de divers systèmes de diarisation des locuteurs dans le traitement audio.
― 8 min lire
Nouveau jeu de données vise à améliorer la reconnaissance vocale pour les anglophones non natifs.
― 7 min lire