Une nouvelle approche améliore le marquage et la récupération de la musique en combinant des termes de langue générale et des termes musicaux.
― 13 min lire
La science de pointe expliquée simplement
Une nouvelle approche améliore le marquage et la récupération de la musique en combinant des termes de langue générale et des termes musicaux.
― 13 min lire
FlashSpeech propose des solutions de synthèse vocale rapides et de haute qualité.
― 8 min lire
Une nouvelle méthode améliore la détection des deepfakes audio en utilisant des références d'échantillons similaires.
― 7 min lire
Cette étude analyse des signaux sonores pour mesurer la virtuosité chez les guitaristes électrique.
― 6 min lire
Des recherches montrent que l'analyse de la parole pourrait aider à identifier la maladie de Parkinson tôt.
― 6 min lire
Cette étude examine les faiblesses des modèles SER face aux attaques adversariales dans différentes langues.
― 7 min lire
SEANet améliore l'isolement des intervenants en réduisant le bruit dans le traitement audio.
― 8 min lire
Un nouveau codec audio offrant une compression de haute qualité et un contenu sémantique riche.
― 8 min lire
Un outil qui combine l'analyse audio et vidéo pour identifier des événements.
― 7 min lire
Une méthode pour mesurer comment les matériaux absorbent le son efficacement.
― 6 min lire
De nouvelles méthodes améliorent la clarté de la parole dans les appareils auditifs grâce à des techniques d'apprentissage profond.
― 8 min lire
Apprends les techniques de localisation du son et leur utilisation dans différents domaines.
― 5 min lire
Nouveau jeu de données et méthodes améliorent la détection des deepfakes audio générés par ALM.
― 8 min lire
Un clip audio universel peut couper des modèles ASR avancés comme Whisper.
― 8 min lire
Un appareil aide à se concentrer sur des voix spécifiques dans des endroits bondés.
― 8 min lire
Une nouvelle méthode améliore le montage audio en utilisant des modèles de diffusion pour des changements précis.
― 7 min lire
SpeechVerse fait le lien entre la compréhension audio et le traitement du langage pour améliorer l'interaction humain-ordinateur.
― 8 min lire
Nouveau jeu de données met en avant les écarts de performance entre les groupes démographiques utilisant des assistants vocaux.
― 8 min lire
Cet article examine les vulnérabilités des modèles de discours et les moyens d'améliorer leur sécurité.
― 7 min lire
Comprendre et atténuer les hallucinations dans l'IA pour une performance fiable.
― 10 min lire
Une nouvelle approche utilise des réseaux de convolution de graphes pour une analyse efficace des données musicales.
― 11 min lire
De nouvelles méthodes améliorent les connexions entre les clips audio et les descriptions textuelles.
― 7 min lire
ROSVOT améliore la précision dans la transcription des voix chantées, même dans des environnements bruyants.
― 7 min lire
Explore comment les grands modèles de langage améliorent la créativité à travers la génération multimédia.
― 10 min lire
Présentation d'un modèle qui génère de l'audio et de la vidéo synchronisés avec des niveaux de bruit mélangés.
― 7 min lire
Un nouveau système améliore les interactions des robots en filtrant les discours qui se chevauchent.
― 7 min lire
Cet article parle d'un nouveau modèle simple pour générer du son à partir d'images et vice versa.
― 6 min lire
Les modèles de langage de débruitage améliorent la correction des erreurs dans les systèmes de reconnaissance vocale en utilisant des données synthétiques.
― 10 min lire
NeRAF crée des sons et des visuels synchronisés pour des expériences immersives dans divers domaines.
― 8 min lire
Une nouvelle méthode améliore l'alignement audio-vidéo en utilisant des modèles pré-entraînés.
― 8 min lire
Utiliser l'apprentissage profond pour améliorer la surveillance des émissions acoustiques des joints boulonnés.
― 9 min lire
Une nouvelle façon de combiner le chant et la danse grâce à des techniques informatiques avancées.
― 7 min lire
Découvrez une nouvelle méthode pour comprendre le mixage musical grâce à l'analyse audio.
― 7 min lire
Découvrez comment le speech inpainting restaure la qualité audio dans différents domaines.
― 8 min lire
Un nouveau système améliore la clarté de la parole dans des environnements avec plusieurs intervenants.
― 7 min lire
De nouvelles méthodes améliorent la façon dont les machines reconnaissent les émotions dans la parole.
― 7 min lire
Le modèle Frieren améliore la qualité audio et la synchronisation pour les vidéos.
― 8 min lire
Une nouvelle méthode génère des sons uniques à partir de texte en utilisant un synthétiseur simple.
― 10 min lire
Une nouvelle méthode améliore la traduction de la parole dans des environnements bruyants tout en préservant l'expressivité.
― 5 min lire
Une nouvelle méthode pour créer de la musique qui colle bien au contenu vidéo.
― 10 min lire