Vous êtes ici : Accueil » Kiosque » Annonce

Identification

Identifiant: 
Mot de passe : 

Mot de passe oublié ?
Détails d'identification oubliés ?

Annonce

21 novembre 2019

[CNAM] Stage M2 - Apprentissage semi-supervisé et faiblement supervisé pour la segmentation sémantique


Catégorie : Stagiaire


Contexte

La compréhension de scènes est un enjeu majeur de la recherche en perception artificielle. Il s’agit non seulement d’identifier les objets imagés mais aussi de comprendre les relations qui les lient : la fracture est-elle horizontale ou verticale, les livres sont-ils rangés, le piéton traverse-t-il ? Depuis quelques années, les approches les plus efficaces de l’état de l’art reposent sur des réseaux de neurones convolutifs profonds (CNN) permettant la détection ou la segmentation d’objets d’intérêt dans les images. Toutefois, le paradigme d’apprentissage supervisé demeure le plus populaire et les modèles profonds sont ainsi gourmands en annotations. Or, l’étiquetage exhaustif des objets, voire des pixels, d’une image est un procédé d’annotation coûteux et qui nécessite souvent l’intervention d’experts (par exemple, des médecins) dont le temps est précieux. Récemment de nouvelles approches d’apprentissage dites semi-supervisée ou faiblement supervisées [Dur+17] se sont intéressées à la réduction de la quantité et de la qualité des annotations nécessaires à l’obtension des performances à l’état de l’art en reconnaissance de formes, jusqu’à se passer entièrement d’annotations [Buc+19]. L’objet de ce stage est ainsi d’étudier les approches parcimonieuses en supervision pour la compréhension d’images.

Sujet

Il existe dans la littérature scientifique plusieurs approches de classification d’images semi-supervisées, par préentraînement non-supervisé [Car+18 ; NF16], propagation d’étiquettes [Rad+18 ; Kho+17] ou contraintes géométriques [Xie+19].

Le premier objectif de ce stage consiste à adapter les techniques de classification semi-supervisées et non-supervisées au problème de la segmentation sémantique. En effet, ces approches exploitent généralement des notions d’invariance ou d’équivariance à des objets à des transformations géométriques qu’il est possible de retrouver ou de modéliser dans le cadre de la compréhension de scènes. Par exemple, faire tourner un objet de 90° doit produire une segmentation où le masque de l’objet correspond à une même rotation du masque initial.

Le second objectif du stage est de réduire le niveau de supervision des exemples d’entraînement, c’est-à-dire d’apprendre à partir d’annotations moins fines ou incomplètes. En pratique, il est rare de pouvoir travailler sur des bases de données où les images ont été complètement annotées au niveau pixellique et il est bien souvent nécessaire de se contenter d'annotations partielles ou grossières, plus rapides à obtenir.

La mise en application des méthodes développées pourra se faire sur différentes applications déjà étudiées au sein du laboratoire : conduite de véhicules autonomes, cartographie d’images satellitaires, analyse d’images médicales ou segmentation d’images naturelles génériques.

[Buc+19] M. Bucher, T.-H. VU, M. Cord et P. Pérez, “Zero-Shot Semantic Segmentation”, in Advances in Neural Information Processing Systems 32, 2019, p. 466-477.
[Car+18] M. Caron, P. Bojanowski, A. Joulin et M. Douze, “Deep Clustering for Unsupervised Learning of Visual Features”, in The European Conference on Computer Vision (ECCV), 2018.
[Dur+17] T. Durand, T. Mordan, N. Thome et M. Cord, “WILDCAT : Weakly Supervised Learning of Deep ConvNets for Image Classification, Pointwise Localization and Segmentation”, in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[Kho+17] A. Khoreva, R. Benenson, J. Hosang, M. Hein et B. Schiele, “Simple Does It : Weakly Supervised Instance and Semantic Segmentation”, in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[NF16] M. Noroozi et P. Favaro, “Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles”, in Computer Vision – ECCV 2016, 2016.
[Rad+18] I. Radosavovic, P. Dollár, R. Girshick, G. Gkioxari et K. He, “Data Distillation : Towards Omni-Supervised Learning”, in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.
[Xie+19] Q. Xie, Z. Dai, E. Hovy, M.-T. Luong et Q. V. Le, Unsupervised Dat

Profil

Nous recherchons un ou une candidate de niveau master 2 ou école d’ingénieur avec une spécialité en mathématiques, en informatique ou en traitement du signal.

Le ou la candidate doit démontrer un certain goût pour la recherche et des bases théoriques adéquates en apprentissage automatique, apprentissage profond et traitement d’image. Une aptitude à la programmation, de préférence avec Python, est indispensable. Une première expérience avec une bibliothèque d’apprentissage profond telle que TensorFlow ou PyTorch est un plus.

Les candidatures (incluant un CV, une lettre de motivation et un relevé de notes) sont à en-
voyer à Nicolas Audebert (nicolas.audebert@cnam.fr) et Nicolas Thome (nicolas.thome@cnam.fr).

Organisation
Le stage est prévu pour une durée de 5 à 6 mois avec un début modulable au printemps 2020. Il se déroulera au centre de recherche et d’études en informatique et en communications (CEDRIC, https://cedric.cnam.fr) du CNAM (https://www.cnam.fr) à Paris (3ème arrondissement).


Le CEDRIC est un laboratoire fondé en 1988 rassemblant 75 enseignants-chercheurs regroupés dans 7 équipes thématiques. Ses activités couvrent divers champs de recherche allant de la fouille de données multimédia aux radiocommunications en passant par l’apprentissage statistique, les médias interactifs et l’optimisation combinatoire.

Le stage sera co-encadré par Dr. Nicolas Audebert (équipe Vertigo) et Prof. Nicolas Thome
(équipe MSDMA)

 

Dans cette rubrique

(c) GdR 720 ISIS - CNRS - 2011-2019.