Annonce

Les commentaires sont clos.

Similitude perceptive de visages

19 Avril 2022


Catégorie : Doctorant


Mots clés : perception, deepfakes, deeplearning (AutoEncodeur, GAN), metriclearning

 

Contexte et enjeux

La manipulation de visage est une technique de translation image-vers-image qui a pour objectif d’éditer automatiquement une photographie d’un visage pour en changer son apparence [1], [2].

Historiquement, les modifications temps réel étaient apportées par des déformations géométriques appliquées localement sur les images d’une vidéo. Avec le développement récent des méthodes de deep learning [3], [4], [5], [6], les techniques de modifications de visage, encore appelée « deep-fakes », sont devenues hautement réalistes, attirant l’attention des médias et du grand public [7], [8].

La plupart de ces techniques sont créées pour modifier des paramètres haut-niveau du visage tels que la couleur des cheveux [4], [6], le genre [6], l’âge [4], ou les émotions [4], [5]. Les résultats sont réalistes, mais pas forcément réels, dans la mesure où les détails initiaux des visages (tels que les rides) sont souvent perdus.

L’une des raisons est que ces outils de machine learning apprennent en comparant des images ou des caractéristiques 2 à 2 à l’aide d’une fonction de coût, qui est généralement basée sur une distance mathématique (Euclidienne, …). Cette distance est appliquée, soit directement sur les pixels (raw images), soit sur les données d’un espace latent (features). On constate, dans les deux cas, que de nombreuses informations sont perdues, telles que les rides, et plus généralement les détails locaux.

Pour générer différents détails plausibles (placement de cheveux, pores de la peau, …), StyleGAN [6] utilise, en entrée du système de génération, et à différent niveaux du réseau, un bruit stochastique. Cela permet, à partir d’une même image de visage, de générer plusieurs versions possibles, gardant la même identité, mais faisant varier des détails ; produisant ainsi des visages réalistes, mais pas réels.

En effet, lors d’une projection (sur un espace latent de visage) puis reconstruction d’une photographie d’un visage, le visage reconstruit perd en précision sur les « hautes fréquence » (rides, …), produisant un visage « lissé ».

Au niveau de la dynamique et des mouvements du visage, c’est le même phénomène que l’on retrouve (fermeture des lèvres ou des yeux incomplète, qui sont les hautes fréquences du mouvement).

Les solutions récentes de modélisation proposent d’ajouter, lors de l’apprentissage des modèles de ML, des fonctions de coût spécifiques à chaque problème que l’on souhaite traiter (exemple dans [9] avec la fermeture des lèvres et l’ajout d’une fonction de coût spécifique). Le sujet de thèse se propose d’étudier une solution plus générale à cette problématique.

L’idée de base est inspirée des travaux de reverse corrélation [10], [11], [12]. Ces travaux, appliqués au visage [10], au corps [11] et à la voix [12], permettent de définir quels motifs (par exemple combinaison d’AUs pour les visages ou features vocales pour la voix) sont importants pour caractériser un état (état émotionnel par exemple). Ainsi, au lieu d’un algorithme « boite noire » issu d’un apprentissage supervisé sur une large base de données labellisée, la reverse corrélation permet une connaissance « boite blanche » des motifs de perception humaine entrant en compte pour l’analyse de l’émotion considérée. Au coeur d’un système de reverse correlation se situe la perception humaine.

 

Objectifs

Le sujet de thèse se propose d’intégrer une mécanique de perception humaine dans les algorithmes de projection/reconstruction de visages, permettant de garder les détails importants des visages (tels que les rides).

L’idée de départ est de créer une nouvelle métrique pour les outils d’apprentissage des visages. Cette nouvelle métrique doit permettre de retenir les caractéristiques importantes des visages (rides, …) qu’elles soient des détails (« hautes fréquences ») ou non. Pour cela, cette métrique doit produire une distance qui soit fonction des caractéristiques importantes de la perception humaine. Par exemple, si les rides sont importantes dans la perception, la distance entre 2 visages doit prendre cette information avec un « poids » important. Cette métrique est appelée « distance de similitude perceptive de visage - Perceptual loss function for faces » dans la mesure où elle sera basée sur la perception qu’à un humain de deux visages similaire. Cette idée pourra ensuite être étendue aux mouvements faciaux.

 

Profil recherché

Master II en Traitement du Signal, Mathématique appliquée ou Intelligence Artificielle

Merci d'envoyer CV, Notes de Master, Lettre de Recommandation et Lettre de Motivation à

renaud.seguier@centralesupelec.fr

 

Rémunération

Il s’agit d’une thèse Cifre qui sera rémunérée 40K€ brut annuel par Chanel.

La thèse se déroulera principalement dans la cellule de Recherche et Développement de Chanel à Pantin (8 rue du Cheval Blanc). Néanmoins, si le/la candidat.e le souhaite, il/elle pourra également poursuivre sa thèse sur le campus de Rennes de CentraleSupélec. Des visites régulières des laboratoires sont prévues pendant le déroulé de la thèse.

L’equipe AIMAC du Campus de Rennes de CentraleSupélec, appartient au département Image de l’IETR (Unité Mixte de Recherche CNRS 6164)

https://www.ietr.fr/equipe-aimac-artificial-intelligence-multimodal-affective-computing

 

[1] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros, “Image-to-image translation with conditional adversarial networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition , 2017, pp. 1125–1134.

[2] J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros, “Unpaired image-to-image translation using cycle-consistent adversarial networks,” in Proceedings of the IEEE international conference on computer vision,2017, pp. 2223–2232.

[3] A. Pumarola, A. Agudo, A. M. Martinez, A. Sanfeliu, and F. Moreno-Noguer, “Ganimation: Anatomically-aware facial animation from a single image,” in Proceedings of the European Conference on Computer Vision (ECCV), September 2018.

[4] Y. Choi, M. Choi, M. Kim, J.-W. Ha, S. Kim, and J. Choo, “Stargan: Unified generative adversarial networks for multi-domain image-to-image translation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018.

[5] H. Yang, Z. Zhang, and L. Yin, “Identity-adaptive facial expression

recognition through expression regeneration using conditional generative adversarial networks,” in 2018 13th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2018). IEEE, 2018, pp. 294–301.

[6] T. Karras, S. Laine, and T. Aila, “A style-based generator architecture for generative adversarial networks,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 4401–4410.

[7] M. Westerlund, “The emergence of deepfake technology: A review,”Technology Innovation Management Review, vol. 9, no. 11, 2019.

[8] V. G. . A. J.-J. Guerouaou, Nadia, “The shallow of your smile: The ethics of expressive vocal deep-fakes,” Philosophical Transactions of the Royal Society B, vol. in press, 2021.

[9] Berson, E., Soladié, C., & Stoiber, N. (2020, June). Real-Time Cleaning and Refinement of Facial Animation Signals. In Proceedings of the 2020 The 4th International Conference on Graphics and Signal Processing (pp. 70-75).

[10] R. E. Jack, O. G. Garrod, H. Yu, R. Caldara, and P. G. Schyns, “Facial expressions of emotion are not culturally universal,” Proceedings of the National Academy of Sciences, vol. 109, no. 19, pp. 7241–7244, 2012.

[11] K. L. Johnson, M. Iida, and L. G. Tassinary, “Person (mis) perception: Functionally biased sex categorization of bodies,” Proceedings of the Royal Society B: Biological Sciences , vol. 279, no. 1749, pp. 4982–4989, 2012.

[12] E. Ponsot, P. Arias, and J.-J. Aucouturier, “Uncovering mental representations of smiled speech using reverse correlation,” The Journal of the Acoustical Society of America, vol. 143, no. 1, pp. EL19–EL24, 2018.