Annonce
Reconstruction de squelette 3D de mouvement quotidien à partir de vidéo monoculaire
5 Janvier 2023
Catégorie : Stagiaire
Un stage M2 sur la reconstruction humaine 3D basée sur la vision dans l'équipe de recherche MLMS (Machine Learning, Modélisation & Simulation) au sein du laboratoire ICube, Strasbourg.
http://igg.unistra.fr/People/seo/StudentsJoboffer_files/SujetM2_Reconstruction_from_Video.pdf
* Contexte
L'analyse de mouvement quotidien est fréquemment utilisée dans plusieurs applications, telle que la détection des anomalies, et la reconnaissance des actions/intentions. Les évaluations reposant sur des capteurs portables sont coûteuses et parfois intrusives, alors que les systèmes commerciaux d'analyse de mouvement 3D nécessitent des caméras soigneusement calibrées pour collecter des données vidéo multi-vues, et ne sont donc pas pratiques. Cependant, compte tenu de la complicité dans les activités quotidiennes et de la variabilité des conditions de capture vidéo (lumière de la pièce, vue de la caméra, etc.), les représentations directes à partir d'images 2D (silhouette, points d'intérêt spatio-temporels) peuvent ne pas être suffisantes. D'où l'intérêt de reconstruire le modèle humain 3D à partir de vidéos monoculaires.
Les approches d'apprentissage basées sur des modèles (e.g. SMPL [2]) sont de bonnes alternatives à ce problème, comme l'ont confirmé un nombre considérable de travaux antérieurs sur la reconnaissance du visage et du corps humain à partir d'images basées sur des modèles 3D préconstruits (Figure 1).
Dans ce projet, nous visons à atteindre la performance de l’état de l’art dans la reconstruction humaine 3D basée sur la vision. En particulier, nous nous intéressons aux mouvements quotidiens dont toutes les vidéos sont captées par une caméra fixe et des occlusions ou troncatures importantes du corps humain sont présents [3][4].
* Objectifs
L’objectif est de développer des modèles de réseau de neurones profonds (modèle de reconstruction ci-après) avec une masse de données de vidéos 2D, pour lesquelles les informations sur les squelettes 3D sont disponibles (fortement supervisé). Ces vidéos que nous traiterons contiennent déjà des positions articulaires 2D estimées par OpenPose [5].
Les travaux s'articulent autour des tâches suivantes :
1. Raffiner/compléter les positions articulaires 2D estimées sur les vidéos, si nécessaire.
2. Collectionner les données 2D (vidéo monoculaire) -- 3D (position des marqueurs) en pair, à partir de bases de données publiques.
3. Contributions pour améliorer/comparer des modèles de reconstruction : Calcule de paramètres de caractéristique, encodeur spatio-temporelle, par exemple.
4. Expérimentes (Ablation study, analyses comparatives), avec l’optimisation de hyperparameters
5. Construire une base de données du squelette 3D en utilisant le modèle de reconstruction entrainé.
http://igg.unistra.fr/People/seo/StudentsJoboffer_files/SujetM2_Reconstruction_from_Video.pdf