Progrès dans la prédiction de la qualité de la parole avec des méthodes efficaces pour les appareils mobiles.
― 6 min lire
La science de pointe expliquée simplement
Progrès dans la prédiction de la qualité de la parole avec des méthodes efficaces pour les appareils mobiles.
― 6 min lire
Une méthode pour améliorer le timbre dans la production musicale avec des synthés.
― 8 min lire
Cette étude évalue la technologie de la parole dans des langues à faibles ressources comme l'arabe tunisien.
― 6 min lire
Des recherches montrent des risques dans les modèles de parole multi-tâches comme Whisper.
― 6 min lire
TokenVerse simplifie l'analyse des conversations orales en intégrant plusieurs tâches dans un seul modèle.
― 8 min lire
Nouveau jeu de données améliore la génération audio à partir de descriptions textuelles détaillées.
― 6 min lire
Une nouvelle façon pour les artistes de relier créativité et génération audio par IA.
― 7 min lire
Explorer l'impact des modèles TTM sur la création musicale et les expériences utilisateurs.
― 8 min lire
Cet article examine la latence de divers systèmes de diarisation des locuteurs dans le traitement audio.
― 8 min lire
Nouveau jeu de données vise à améliorer la reconnaissance vocale pour les anglophones non natifs.
― 7 min lire
Un nouveau cadre, BiosERC, améliore la reconnaissance des émotions en prenant en compte les traits des interlocuteurs.
― 8 min lire
Cette étude examine comment les préférences vocales varient chez différents auditeurs.
― 6 min lire
Cet article présente une méthode pour générer un son précis à partir de vidéos et de texte.
― 9 min lire
Un nouveau modèle améliore la simulation des instruments à cordes pour un son réaliste.
― 8 min lire
Présentation d'une méthode pour un meilleur contrôle dans l'édition de discours.
― 7 min lire
Une étude sur la classification de la musique par époque en utilisant des caractéristiques audio et des avis d'artistes.
― 8 min lire
Un nouveau modèle améliore l'étude de la communication animale en utilisant des données audio brutes.
― 7 min lire
Un nouveau système améliore l'efficacité du traitement des signaux grâce à des méthodes d'encodage innovantes.
― 7 min lire
Une équipe s'attaque aux défis d'identification des chants d'oiseaux dans la compétition BirdCLEF 2024.
― 8 min lire
Présentation des ensembles de données MERGE pour améliorer la classification des émotions dans la musique.
― 7 min lire
Cette étude examine le Mix-Training pour la détection de mots-clés dans des conditions de parole bruyante.
― 7 min lire
Une nouvelle méthode aide les petits modèles à mieux fonctionner en utilisant des indices des plus gros modèles.
― 8 min lire
Découvrez les mises à jour de la version 3 du jeu de données Divide and Remaster.
― 8 min lire
Un aperçu complet des ensembles de données utilisés dans les modèles audio-langue et de leur importance.
― 14 min lire
Un système fiable basé sur des écouteurs surveille les taux de respiration pendant différentes activités quotidiennes.
― 7 min lire
Améliorer les systèmes de reconnaissance vocale pour les langues avec peu de données en ligne.
― 6 min lire
Combiner son et images pour des systèmes de reconnaissance plus intelligents.
― 8 min lire
Une méthode pour améliorer la détection des deepfakes audio grâce à l'augmentation des données.
― 7 min lire
Beat-It génère des mouvements de danse synchronisés pour améliorer la chorégraphie sans effort.
― 7 min lire
Des chercheurs veulent créer des sons qui vont avec des vidéos silencieuses, pour améliorer l'expérience des spectateurs.
― 7 min lire
Cette étude aborde les problèmes des systèmes SLU et leur capacité à se généraliser.
― 8 min lire
Un outil auto-supervisé pour estimer les signatures musicales, réduisant le besoin d'annotations d'experts.
― 7 min lire
Diff-MST améliore le mixage de musique en appliquant un transfert de style à partir de morceaux de référence.
― 8 min lire
Un nouveau modèle améliore la communication pour les personnes handicapées en utilisant la reconnaissance vocale et le code Morse.
― 6 min lire
ElasticAST permet de traiter des audio de longueur variable de manière efficace sans perdre des détails importants.
― 6 min lire
Analyse des méthodes d'identification des chanteurs face aux inquiétudes croissantes sur le clonage vocal.
― 7 min lire
Une nouvelle approche améliore la détection de clips audio mélangés réels et faux.
― 8 min lire
Mamba montre du potentiel contre les transformers dans les tâches de parole, surtout pour les longues entrées.
― 6 min lire
SingFlex propose des solutions innovantes pour créer des voix chantées variées de manière efficace.
― 7 min lire
Une étude sur la complexité des morceaux de danse traditionnelle irlandaise en utilisant des méthodes de compression.
― 6 min lire