FlashSpeech propose des solutions de synthèse vocale rapides et de haute qualité.
― 8 min lire
La science de pointe expliquée simplement
FlashSpeech propose des solutions de synthèse vocale rapides et de haute qualité.
― 8 min lire
Une nouvelle méthode pour créer des images 3D détaillées à partir d'images uniques en utilisant la diffusion multiview.
― 6 min lire
CoCoGesture crée des gestes réalistes qui correspondent aux mots prononcés, rendant l'interaction plus sympa.
― 6 min lire
Explore comment les grands modèles de langage améliorent la créativité à travers la génération multimédia.
― 10 min lire
Une nouvelle méthode pour créer de la musique qui colle bien au contenu vidéo.
― 10 min lire
MMTrail combine des descriptions visuelles et audio pour de meilleurs modèles de vidéo-langue.
― 6 min lire
X-Codec améliore la génération audio en intégrant la compréhension sémantique dans le traitement.
― 7 min lire
Une nouvelle méthode offre un modélisation 3D améliorée à partir d'une seule image, rendant le rendu plus réaliste.
― 9 min lire