Emilia propose un dataset varié pour améliorer les modèles de génération de discours.
― 8 min lire
La science de pointe expliquée simplement
Emilia propose un dataset varié pour améliorer les modèles de génération de discours.
― 8 min lire
Un nouveau système améliore l'efficacité du traitement des signaux grâce à des méthodes d'encodage innovantes.
― 7 min lire
Une équipe s'attaque aux défis d'identification des chants d'oiseaux dans la compétition BirdCLEF 2024.
― 8 min lire
Présentation des ensembles de données MERGE pour améliorer la classification des émotions dans la musique.
― 7 min lire
Une nouvelle méthode aide les petits modèles à mieux fonctionner en utilisant des indices des plus gros modèles.
― 8 min lire
Découvrez les mises à jour de la version 3 du jeu de données Divide and Remaster.
― 8 min lire
Un aperçu complet des ensembles de données utilisés dans les modèles audio-langue et de leur importance.
― 14 min lire
Un système fiable basé sur des écouteurs surveille les taux de respiration pendant différentes activités quotidiennes.
― 7 min lire
Améliorer les systèmes de reconnaissance vocale pour les langues avec peu de données en ligne.
― 6 min lire
Cette étude examine comment les réseaux de neurones interprètent la parole en utilisant des spectrogrammes.
― 8 min lire
Combiner son et images pour des systèmes de reconnaissance plus intelligents.
― 8 min lire
Une méthode pour améliorer la détection des deepfakes audio grâce à l'augmentation des données.
― 7 min lire
Beat-It génère des mouvements de danse synchronisés pour améliorer la chorégraphie sans effort.
― 7 min lire
Des chercheurs veulent créer des sons qui vont avec des vidéos silencieuses, pour améliorer l'expérience des spectateurs.
― 7 min lire
Cette étude aborde les problèmes des systèmes SLU et leur capacité à se généraliser.
― 8 min lire
Un outil auto-supervisé pour estimer les signatures musicales, réduisant le besoin d'annotations d'experts.
― 7 min lire
Diff-MST améliore le mixage de musique en appliquant un transfert de style à partir de morceaux de référence.
― 8 min lire
ElasticAST permet de traiter des audio de longueur variable de manière efficace sans perdre des détails importants.
― 6 min lire
Analyse des méthodes d'identification des chanteurs face aux inquiétudes croissantes sur le clonage vocal.
― 7 min lire
Une nouvelle approche améliore la détection de clips audio mélangés réels et faux.
― 8 min lire
Un nouveau système améliore la détection du son et l'estimation de la distance.
― 5 min lire
Mamba montre du potentiel contre les transformers dans les tâches de parole, surtout pour les longues entrées.
― 6 min lire
SingFlex propose des solutions innovantes pour créer des voix chantées variées de manière efficace.
― 7 min lire
Une étude sur la complexité des morceaux de danse traditionnelle irlandaise en utilisant des méthodes de compression.
― 6 min lire
RefinPaint améliore la création musicale en identifiant et en perfectionnant les points faibles de manière efficace.
― 7 min lire
Découvrez comment les PAL peuvent révolutionner le contrôle des zones sonores dans différents environnements.
― 5 min lire
La méthode CUSIDE-array améliore la précision de la reconnaissance vocale en temps réel dans les systèmes multi-canaux.
― 7 min lire
Un nouveau cadre améliore la performance de vérification des locuteurs avec des données limitées.
― 8 min lire
Explorer de nouvelles façons dont l'IA peut collaborer avec les musiciens à travers l'interprétation.
― 6 min lire
Apprends comment le contexte améliore la précision de la reconnaissance vocale automatique et la reconnaissance des mots.
― 6 min lire
CADE améliore la détection audio contre les menaces de spoofing en évolution grâce à des techniques d'apprentissage continu.
― 9 min lire
Méthode innovante améliore la clarté des partitions de musique pour le piano.
― 9 min lire
Une nouvelle méthode aide les robots à retrouver des objets tombés en utilisant le son.
― 6 min lire
De nouvelles méthodes améliorent la capacité des machines à isoler les conversations dans des environnements bruyants.
― 6 min lire
Un modèle vocal qui transforme l'interaction audio avec la technologie.
― 7 min lire
De nouvelles techniques permettent une meilleure émulation des amplis de guitare et des effets.
― 8 min lire
Un nouveau cadre améliore la performance de l'ASR en utilisant des données et des ressources limitées.
― 7 min lire
Une nouvelle méthode améliore l'efficacité de la génération audio en utilisant des techniques d'attention innovantes.
― 6 min lire
Découvrez comment l'IA transforme la génération de musique avec BandControlNet.
― 7 min lire
Un robot mobile apprend à reconnaître les voix dans des environnements bruyants pour des applications pratiques.
― 6 min lire