Transformer le doublage avec la technologie visuelle
Une nouvelle méthode de doublage améliore le synchronisme labial pour une meilleure expérience de visionnage.
― 8 min lire
Table des matières
- Qu'est-ce qui rend le doublage réussi ?
- Notre approche du doublage
- Caractéristiques clés de notre modèle
- Comment nous avons construit notre modèle
- Entraîner notre modèle
- Réduction des erreurs avec le post-traitement
- Tester notre modèle
- Résultats
- Limitations et travail futur
- Considérations éthiques
- Conclusion
- Source originale
- Liens de référence
Le doublage, c'est le processus de traduction de contenu vidéo d'une langue à une autre. Traditionnellement, ça voulait dire changer seulement les pistes audio tout en gardant la vidéo identique. Ça peut donner une expérience de visionnage pas terrible, parce que les lèvres des gens ne correspondent pas à la nouvelle audio. Récemment, un nouveau truc appelé Doublage Visuel a été développé. Le doublage visuel vise à recréer les mouvements des lèvres d'un acteur dans une vidéo pour les synchroniser avec une nouvelle audio dans une autre langue. Quand c'est bien fait, le doublage visuel peut changer la façon dont les audiences à travers le monde regardent du contenu qui a été filmé à l'origine dans une langue qu'ils ne comprennent pas.
Qu'est-ce qui rend le doublage réussi ?
Pour qu'une méthode de doublage fonctionne bien, elle doit répondre à certaines exigences :
- Réalité : Les lèvres doivent avoir l'air naturel, pour que les spectateurs ne soient pas distraits. Ça veut dire que la qualité vidéo doit être bonne et que les mouvements des lèvres doivent correspondre de près à l'audio.
- Polyvalence : Ça doit fonctionner pour tous les acteurs, des stars célèbres à ceux avec des rôles plus petits, et n'avoir besoin que de quelques secondes de leur dialogue pour le faire.
- Rapidité : Ajouter un nouvel acteur au modèle ne devrait pas prendre trop de temps. Une méthode qui nécessite des jours d'entraînement ne sera pas pratique.
- Préservation du style : Le style unique de l'acteur doit encore être visible dans la vidéo doublée. Leurs lèvres et dents devraient apparaître comme dans la vidéo originale.
Notre approche du doublage
Notre méthode, appelée Doublage pour Tous, permet la reconstruction des mouvements des lèvres lors du changement de langue de la vidéo. Cette nouvelle méthode corrige les défauts des modèles de doublage visuel génériques et spécifiques aux personnes.
- Modèles génériques peuvent fonctionner avec n'importe quelle vidéo et audio sans nécessiter d'entraînement supplémentaire. Cependant, ils manquent souvent des traits uniques de l'acteur et peuvent avoir des erreurs visuelles.
- Modèles spécifiques aux personnes peuvent produire un doublage visuel presque parfait, mais ils ont besoin de beaucoup de données de la même personne, ce qui prend un temps considérable à collecter et à entraîner.
Doublage pour Tous combine les forces des deux approches. Ça utilise un système qui apprend à recréer les mouvements des lèvres basés sur divers acteurs et ensuite s'adapte à chaque acteur spécifique avec un minimum de données. Ça veut dire qu'on peut obtenir un doublage visuel De haute qualité avec seulement quelques secondes de séquence, rendant possible le doublage de n'importe quel acteur, des stars principales aux acteurs de fond.
Caractéristiques clés de notre modèle
- Haute qualité : Notre approche crée des vidéos qui sont visuellement attrayantes et réalistes.
- Moins de données nécessaires : On n'a besoin que de quelques secondes de données d'un acteur pour produire des résultats de qualité.
- Entraînement rapide : Ajouter un nouvel acteur à notre modèle est beaucoup plus rapide par rapport aux méthodes traditionnelles.
- Styles uniques des acteurs : Le modèle capture et reflète les caractéristiques uniques de différents acteurs.
Comment nous avons construit notre modèle
On a conçu notre modèle pour gérer le doublage en deux étapes principales : transformer l'audio en mouvements de bouche et ensuite générer la vidéo. Ce processus en deux étapes nous permet de nous concentrer sur les traits uniques de chaque acteur tout en maintenant la qualité globale de la vidéo.
Étape 1 : Audio à mouvement de lèvres
On utilise une technologie d'animation avancée basée sur la parole pour contrôler les mouvements des lèvres de l'acteur en fonction de l'audio. Cette technologie nous permet de nous adapter au style de parole de l'acteur, assurant que les mouvements des lèvres synchronisés semblent naturels.
Étape 2 : Génération de vidéo
Après avoir bien réalisé les mouvements des lèvres, on crée la vidéo réelle. On échantillonne des textures pour les mouvements des lèvres et on les mélange avec les images originales. Un réseau spécial appelé StyleGAN2 nous aide à générer des images photoréalistes.
Pour s'assurer que la vidéo est stable et sans glitch, on fournit au modèle plusieurs images avant et après l'image cible. Ça aide à créer une vidéo fluide et cohérente.
Entraîner notre modèle
Pour entraîner notre modèle, on a utilisé un grand ensemble de données contenant de nombreux acteurs différents. Au départ, on a partagé les poids du réseau entre toutes les identités pour apprendre des caractéristiques communes. Cependant, chaque acteur a ses propres textures uniques. Donc, bien que la structure générale soit partagée, le modèle se peaufine pour capturer les détails de chaque acteur.
Quand on introduit un nouvel acteur, on adapte rapidement le modèle en utilisant une petite quantité de données, ce qui nous permet de maintenir la qualité tout en accélérant le processus d'entraînement.
Réduction des erreurs avec le post-traitement
Bien que notre modèle fasse du bon travail, il peut parfois produire de petites erreurs sur les bords du visage dans la vidéo. Pour corriger ça, on applique une étape de post-traitement où on compare les images générées avec les originales. Ça nous aide à corriger les erreurs et à améliorer l'apparence générale en mélangeant les parties générées et réelles de la vidéo.
Tester notre modèle
Pour voir à quel point notre modèle fonctionne bien, on a réalisé plusieurs tests en le comparant à d'autres méthodes de pointe. On a évalué la qualité visuelle, à quel point les lèvres correspondaient à l'audio, et si les caractéristiques uniques de l'acteur étaient préservées.
Études utilisateurs
Dans nos études utilisateurs, on a montré des extraits à des utilisateurs et on leur a demandé de noter différentes méthodes de doublage selon trois critères :
- Qualité visuelle : À quel point la vidéo a l'air attrayante.
- Qualité de synchronisation des lèvres : À quel point les mouvements des lèvres correspondaient à l'audio.
- Qualité idiosyncratique : À quel point la vidéo doublée ressemblait au style de l'acteur original.
Résultats
Les résultats ont montré que les utilisateurs préféraient généralement notre méthode par rapport aux autres, surtout dans les cas où on avait peu de données. Ça indique que notre modèle est efficace et atteint une haute qualité même quand les données d'entraînement sont rares.
Limitations et travail futur
Bien que notre méthode soit assez efficace, elle n'est pas parfaite. Quelques petites erreurs visuelles peuvent encore apparaître, surtout autour des bords du visage. On pense que ces erreurs pourraient être améliorées en entraînant le modèle séparément sur juste la région du visage, ce qui devrait améliorer la performance.
Un autre domaine à améliorer est la rapidité des étapes de préparation impliquées dans la création d'un modèle 3D du visage. On espère explorer des techniques plus rapides qui aideront à rendre le processus plus efficace à l'avenir.
Considérations éthiques
Comme pour toute technologie, il y a des préoccupations éthiques à considérer. Notre méthode a le potentiel de créer du contenu trompeur, comme des deepfakes, ce qui peut mener à de la désinformation. Pour gérer ces risques de manière responsable, on prévoit de limiter l'accès à notre modèle et aux résultats à des chercheurs dans des institutions accréditées.
Conclusion
Doublage pour Tous est un outil puissant qui améliore la manière dont on peut traduire du contenu vidéo en ne changeant pas seulement l'audio mais aussi en modifiant la vidéo pour rendre l'expérience plus réaliste. En utilisant des technologies de pointe, on a créé un modèle capable de doublage de haute qualité avec moins de données et des temps d'entraînement plus rapides, tout en préservant les styles uniques des acteurs individuels. Au fur et à mesure qu'on continue à peaufiner notre approche, on vise à encourager des usages positifs de cette technologie, en promouvant l'échange culturel tout en restant prudent quant à son potentiel de mauvaise utilisation.
Titre: Dubbing for Everyone: Data-Efficient Visual Dubbing using Neural Rendering Priors
Résumé: Visual dubbing is the process of generating lip motions of an actor in a video to synchronise with given audio. Recent advances have made progress towards this goal but have not been able to produce an approach suitable for mass adoption. Existing methods are split into either person-generic or person-specific models. Person-specific models produce results almost indistinguishable from reality but rely on long training times using large single-person datasets. Person-generic works have allowed for the visual dubbing of any video to any audio without further training, but these fail to capture the person-specific nuances and often suffer from visual artefacts. Our method, based on data-efficient neural rendering priors, overcomes the limitations of existing approaches. Our pipeline consists of learning a deferred neural rendering prior network and actor-specific adaptation using neural textures. This method allows for $\textbf{high-quality visual dubbing with just a few seconds of data}$, that enables video dubbing for any actor - from A-list celebrities to background actors. We show that we achieve state-of-the-art in terms of $\textbf{visual quality}$ and $\textbf{recognisability}$ both quantitatively, and qualitatively through two user studies. Our prior learning and adaptation method $\textbf{generalises to limited data}$ better and is more $\textbf{scalable}$ than existing person-specific models. Our experiments on real-world, limited data scenarios find that our model is preferred over all others. The project page may be found at https://dubbingforeveryone.github.io/
Auteurs: Jack Saunders, Vinay Namboodiri
Dernière mise à jour: 2024-01-11 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2401.06126
Source PDF: https://arxiv.org/pdf/2401.06126
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.