Zhou Zhao

Vision par ordinateur et reconnaissance des formes Avancer le grounding visuel 3D avec une supervision faible

Une méthode pour le ancrage visuel 3D utilisant un minimum d'annotations.

2025-10-18T12:47:30+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans le grounding visuel 3D avec 3DRP-Net

Un nouveau cadre améliore la précision de localisation des objets en utilisant le positionnement relatif.

2025-10-15T20:08:36+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Chat-3D : Une nouvelle approche pour interagir avec des scènes 3D

Un système révolutionnaire allie visuels 3D et langage pour des interactions améliorées.

2025-10-08T04:20:12+00:00 ― 7 min lire

Son Avancées dans la technologie de traduction de la parole à la parole

De nouvelles méthodes en S2ST améliorent la qualité de la traduction tout en gardant l'identité du locuteur.

2025-09-11T16:07:50+00:00 ― 7 min lire

Son Prompt-Chanteur : Une nouvelle approche du contrôle de la voix chantée

Une méthode pour un contrôle plus intuitif des voix chantées en utilisant des commandes en langage naturel.

2025-08-17T01:33:05+00:00 ― 9 min lire

Traitement de l'audio et de la parole Amélioration de la transcription de la voix chantée avec le modèle ROSVOT

ROSVOT améliore la précision dans la transcription des voix chantées, même dans des environnements bruyants.

2025-08-05T10:11:50+00:00 ― 7 min lire

Son Avancées dans la génération de vidéo en audio avec Frieren

Le modèle Frieren améliore la qualité audio et la synchronisation pour les vidéos.

2025-08-02T10:07:55+00:00 ― 8 min lire

Traitement de l'audio et de la parole Avancées dans la technologie de la conversion parole-chanson

Une nouvelle méthode améliore la conversion de la parole en chant grâce à l'apprentissage auto-supervisé.

2025-08-01T09:50:25+00:00 ― 9 min lire

Traitement de l'audio et de la parole MelodyLM : L'avenir de la création de chansons

MelodyLM simplifie la création de musique en utilisant des entrées textuelles et vocales.

2025-07-23T16:55:55+00:00 ― 8 min lire

Calcul et langage Traitement des données manquantes dans l'analyse multimodale des émotions

Une nouvelle méthode améliore la reconnaissance des émotions même avec des données incomplètes.

2025-07-17T21:51:48+00:00 ― 7 min lire

Traitement de l'audio et de la parole MSceneSpeech : Faire avancer la synthèse vocale en mandarin

Un nouveau jeu de données améliore la parole des machines pour le mandarin, visant une expression naturelle.

2025-07-14T09:26:55+00:00 ― 7 min lire

Traitement de l'audio et de la parole Les outils d'IA transforment le processus de montage musical

De nouveaux outils d'IA simplifient le montage musical avec des techniques innovantes et une précision améliorée.

2025-07-13T18:52:25+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes OmniBind : Une nouvelle approche pour les données multimodales

OmniBind intègre différents types de données pour une meilleure compréhension et génération de contenu.

2025-07-12T14:16:42+00:00 ― 6 min lire

Son Présentation de MulliVC : Système de conversion vocale de nouvelle génération

MulliVC transforme les voix à travers les langues avec une précision et une clarté impressionnantes.

2025-07-03T11:54:30+00:00 ― 6 min lire

Recherche d'informations Avancées dans les systèmes de recommandation grâce à la tokenisation sémantique

Apprends comment la tokenisation sémantique améliore les systèmes de recommandation.

2025-06-13T16:39:30+00:00 ― 7 min lire

Apprentissage automatique Apprentissage Équilibré : Modulation de Gradient Guidée par Classificateur

Une nouvelle méthode pour améliorer l'efficacité de l'apprentissage multimodal.

2025-06-01T11:57:48+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Révolutionner l'orientation des objets en vision par ordinateur

Apprends comment les modèles 3D améliorent l'estimation de l'orientation des objets pour les applis tech.

2025-01-28T07:12:27+00:00 ― 8 min lire