Nouveau jeu de données améliore la génération audio à partir de descriptions textuelles détaillées.
― 6 min lire
La science de pointe expliquée simplement
Nouveau jeu de données améliore la génération audio à partir de descriptions textuelles détaillées.
― 6 min lire
Présentation des ensembles de données MERGE pour améliorer la classification des émotions dans la musique.
― 7 min lire
Un aperçu des méthodes de création et de détection des deepfakes.
― 9 min lire
Examiner comment les retours pendant les collisions influencent l'expérience utilisateur dans des espaces VR bondés.
― 7 min lire
Une nouvelle méthode améliore la détection des deepfakes en utilisant une analyse audio-visuelle.
― 7 min lire
Une nouvelle méthode améliore la création de sons pour des modèles humains 3D réalistes.
― 8 min lire
Une nouvelle méthode combine texte, émotions et audio pour détecter la santé mentale de manière plus efficace.
― 9 min lire
Un projet qui offre un soutien émotionnel via des réponses audio pour ceux qui en ont besoin.
― 6 min lire
Un nouveau modèle de texte à audio utilisant uniquement des données publiques.
― 7 min lire
OmniBind intègre différents types de données pour une meilleure compréhension et génération de contenu.
― 6 min lire
Examiner comment les codecs gardent les émotions dans les données vocales.
― 7 min lire
Une étude sur l'amélioration des méthodes pour détecter la compression audio avec perte pour une meilleure qualité sonore.
― 7 min lire
Un nouveau modèle qui synchronise les annotations d'accords avec l'audio de la musique sans accroc.
― 7 min lire
Un cadre qui identifie efficacement le contenu deepfake grâce à une analyse combinée de l'audio et de la vidéo.
― 7 min lire
Une nouvelle approche combine des données audio, vidéo et texte pour un diagnostic efficace de la dépression.
― 10 min lire
VAT-CMR permet aux robots de récupérer des objets en utilisant des données visuelles, audio et tactiles.
― 8 min lire
UniTalker fusionne des jeux de données pour une meilleure précision d'animation faciale.
― 9 min lire
Style-Talker améliore les conversations entre les humains et les machines grâce à une profondeur émotionnelle.
― 11 min lire
Une nouvelle approche se concentre sur des incohérences subtiles dans la détection de deepfake.
― 8 min lire
Une nouvelle méthode combine EEG, audio et expressions faciales pour évaluer la santé mentale.
― 8 min lire
Un aperçu des complexités pour identifier des pistes audio mixées.
― 8 min lire
Un nouveau modèle sépare le timbre et la structure pour une meilleure création audio.
― 9 min lire
RoboMNIST aide les robots à reconnaître différentes activités en utilisant le WiFi, la vidéo et le son.
― 7 min lire
X-Codec améliore la génération audio en intégrant la compréhension sémantique dans le traitement.
― 7 min lire
De nouvelles méthodes améliorent la séparation des voix dans des environnements bruyants.
― 5 min lire
Un nouveau système génère de la parole à partir de texte en utilisant un minimum de données.
― 6 min lire
De nouvelles méthodes de filigrane protègent les créateurs dans les modèles génératifs audio.
― 5 min lire
Un nouveau cadre améliore la génération de mouvements pour les animations et les expériences virtuelles.
― 8 min lire
Un nouveau modèle simplifie la production audio en éliminant automatiquement les sons de respiration.
― 7 min lire
Une nouvelle méthode améliore la transformation audio tout en préservant la mélodie et la qualité sonore.
― 8 min lire
Cette étude évalue des réseaux de neurones pour reproduire les caractéristiques de la réverbération à ressort.
― 10 min lire
ParaEVITS améliore l'expression émotionnelle dans la synthèse vocale grâce à un guidage en langage naturel.
― 6 min lire
De nouvelles méthodes améliorent l'accès aux nouvelles parlées en segmentant les sujets plus efficacement.
― 8 min lire
SoloAudio améliore l'extraction sonore avec des techniques avancées et des données synthétiques.
― 6 min lire
Nouveau modèle améliore la détection des intervenants en temps réel et l'efficacité de la communication.
― 7 min lire
Un nouveau modèle améliore la génération audio en utilisant des textes et des sons de référence détaillés.
― 8 min lire
MusicLIME aide à comprendre comment l'IA analyse la musique à travers l'audio et les paroles.
― 7 min lire
Un nouveau modèle crée de l'audio qui correspond à la vidéo, améliorant les expériences médiales.
― 6 min lire
Une nouvelle approche combine des vidéos de cours et des diapositives pour mieux engager les étudiants.
― 7 min lire
Cette étude analyse comment l'audio, la vidéo et le texte fonctionnent ensemble dans la reconnaissance vocale.
― 9 min lire