Annonce

Les commentaires sont clos.

Annonce Stage M2/PFE: Transformers de vision pour la segmentation sémantique sur système embarqué

24 Octobre 2023


Catégorie : Stagiaire


Merci d’envoyer un CV, une lettre de motivation, et les relevés de notes de master à :

Co-directions de stage :

  • Martyna POREBA, Ingénieur chercheur CEA-LIST, LIAE
  • Michal SZCZEPANSKI, Ingénieur chercheur CEA-LIST, LIAE

Dossier de candidature à envoyer à : martyna.poreba[at]cea.fr, michal.szczepanski[at]cea.fr

Durée : 6 mois entre fevrier et septembre 2024

Lieu : Centre D'intégration Nano-Innov Cea-List University Paris-Saclay

Profil recherché :

  • Connaissances en traitement d’images, machine learning, deep learning
  • Langage C/C++, Python, Linux
  • Bon niveau en anglais

Les Transformers de vision (ViT), une classe de modèles d'apprentissage profond initialement conçus pour les tâches de traitement du langage naturel, sont devenus des outils puissants pour comprendre et traiter l'information visuelle. L'idée principale de ViT est de traiter les données d'image comme une séquence de régions (token) et d'utiliser des mécanismes d'attention pour capturer les relations entre les régions afin de faire une prédiction. Les réseaux neuronaux convolutifs (CNN) se distinguent des ViT en utilisant des couches de convolution avec des champs réceptifspour extraire directement des hiérarchies spatiales de caractéristiques à partir de l'image d'entrée. L'efficacité et l'applicabilité du ViT sont souvent affectées par les exigences importantes en matière de calcul dues au grand nombre de tokens à traiter.

>Ce stage porte sur le domaine innovant de la parcimonie des jetons (token pruning) afin d'accélérer l'inférence pour la segmentation sémantique tout en préservant son exactitude. Compte tenu du fait que le coût de calcul des Transformers croît quadratiquement en fonction du nombre de jetons, l'objectif est de détecter automatiquement les jetons redondants et de configurer dynamiquement leur nombre et leur taille pour chaque image d'entrée. À travers une analyse approfondie des techniques de pruning existantes, la première tâche consistera à identifier et évaluer les méthodes les plus efficaces pour optimiser les modèles ViT dans le contexte de la segmentation sémantique.

Actuellement, la majorité des techniques de pruning de jetons abordent la tâche de classification d'images [1-4] et découvrent qu'un niveau de précision similaire peut être atteint en ne prenant en compte qu'un sous-ensemble de tous les jetons (fusion ou suppression), en appliquant une structure hiérarchique des jetons ou en combinant l'attention locale et l'attention globale. Cependant, ces méthodes ne sont probablement pas directement applicables à la segmentation sémantique, qui, quant à elle, nécessite une prédiction pour chaque jeton d’origine. Il n'est pas possible d'éliminer les jetons puisque chacun représente une région spécifique pour la tâche de segmentation sémantique. De même, après avoir appliqué les approches de fusion de jetons existantes, il n'est pas trivial de rétro propager l'information sémantique pour chaque jeton initial. Ces contraintes posent des problèmes lorsqu'il s'agit d'optimiser l'efficacité informatique du transformer de vision pour la segmentation sémantique. Le point de départ de ce stage peut être CTS [5], qui propose un réseau CNN entraîné en amont du ViT pour prédire si des régions voisines d'image contiennent la même classe sémantique. Le stagiaire ne se limitera pas à progresser dans le domaine de la vision par ordinateur mais il aura également l'opportunité de mettre en œuvre de manière pratique la segmentation basée sur ViT dans des environnements à ressources limitées. Il évoluera au sein de l’équipe Perception comportant plusieurs chercheurs permanents et trois doctorants.

Dans ce contexte, les objectifs du stage sont les suivants :

  • Etat de l’art sur le pruning des jetons (CTS, CF-ViT, DVT) et des réseaux hybrides et ViTs légers (EdgeNeXt, MoibileViT, DeiT-T) ;
  • Benchmarking (FPS, mIOU, Params, MACC, FLOPS) de modèles de segmentation sémantique avec des techniques d'optimisation sélectionnées ;
  • Proposition d’une nouvelle approche plus frugale pour la segmentation ;
  • Implémentation sur puce embarquée de type NVIDIA Jetson Orin.

 

Références :

[1] Chen, M., Lin, M., Li, K., Shen, Y., Wu, Y., Chao, F., & Ji, R. (2023, June). CF-VIT: A general coarse-to-fine method for vision transformer. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 37, No. 6, pp. 7042-7052).

[2] Liang, Y., Ge, C., Tong, Z., Song, Y., Wang, J., & Xie, P. (2022). Not all patches are what you need: Expediting vision transformers via token reorganizations. arXiv preprint arXiv:2202.07800.

[3] Wang, Y., Huang, R., Song, S., Huang, Z., Huang, G. (2021). Not All Images are Worth 16x16 Words: Dynamic Transformers for Efficient Image Recognition, Advances in Neural Information Processing Systems, Curran Associates, Inc., vol. 34, pp. 11960-11973

[4] Long, S., Zhao, Z., Pi, J., Wang, S., & Wang, J. (2023). Beyond Attentive Tokens: Incorporating Token Importance and Diversity for Efficient Vision Transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10334-10343).

[5] Lu, C., de Geus D., Dubbelman, G. (2023). Content-aware Token Sharing for Efficient Semantic Segmentation with Vision Transformers, in 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, BC, Canada, 2023 pp. 23631-23640.