Vous êtes ici : Accueil » Kiosque » Annonce

Identification

Identifiant: 
Mot de passe : 

Mot de passe oublié ?
Détails d'identification oubliés ?

Annonce

5 avril 2019

Détection, Reconnaissance, Localisation et Tracking d’Objets-basées Deep Learning. Application à la Perception d’Environnement et à la Smart Mobility.


Catégorie : Post-doctorant


Ce sujet de Post Doc fait partie de la continuation des travaux de recherches liés au pôle IIS de l’IRSEEM. Il reprend une grande partie du Projet de recherche RIN M2SiNUM (Modélisation Mathématique avancée et Simulations Numériques pour l’innovation dans l’environnement et la santé) et concerne particulièrement l’axe 2 (sur 4 axes que le projet comprend) : Smart City sur la détection et la reconnaissance d’objets pour la smart mobility. Ce projet vise à réaliser la détection d’objets et d’en déterminer les interactions avec la trajectoire du capteur embarqué. Le projet vise multiples applications sur la Smart Mobility avec des environnements de types routières (routes, trottoir) ou ferroviaires : détection de piétons, détection d’objets, tracking d’objets sur la route et/ou trottoir. Ces applications visent à renforcer non seulement la sécurité routière (smart mobility et navigation autonome) mais aussi ferroviaire (train autonome).

Durée : 12 mois :
- Début du Post Doc : 01/09/2019
- Fin de Post Doc : 31/08/2020


L’équipe encadrante est constituée de :
- R. Khemmar, B. Decoux et Jean-Yves. Ertaud
- Contacts : recrutement-rh@esigelec.fr

Dans le cadre des activités de recherche de l’IRSEEM (laboratoire de recherche de l’ESIGELEC) liées au Pôle IIS (Informatique, Instrumentation et Systèmes) et particulièrement à l’Axe : « Perception et Véhicule Intelligent », des travaux de recherche touchant à la perception et fusion multicapteurs pour l’aide à la conduite et à la navigation autonome sont menés depuis plusieurs années. Ces travaux ont été partiellement validés sur des plateformes mobiles (robots mobiles, drone, véhicules) lors du projet RIN M2NUM mais aussi au niveau d’autres projets développés par l’IRSEEM. Depuis 2012, les approches liées au deep learning sont devenues des méthodes de référence dans la reconnaissance d’objets en donnant un ensemble de classes (par exemple : piéton, véhicule, etc.). Parmi ces travaux de recherche, le projet M2SINUM vise le développement de modèles mathématiques de problèmes issus de diverses applications pour l’environnement et le vivant. Plus particulièrement l’axe 2 (Smart City) qui vise à développer des approches et modèles mathématiques dédiées à la détection et reconnaissance d’objets dans une scène routière. C’est dans ce contexte que ce sujet de Post Doc a été défini. L’objectif est de développer/expérimenter de nouvelles approches en vision embarquée moderne, notamment basées sur le deep learning, dédiées à la détection et la reconnaissance d’objets (piétons, trottoir, voies ferrées, véhicules, obstacles) et ce, avec de fortes contraintes : précision et de temps-réel. L’objectif de ces travaux est de contribuer à renforcer le développement de systèmes d’aide
à la conduite pour la navigation autonome (ADAS).

L’objectif de ce travail est non seulement de percevoir/détecter des objets en environnement extérieur (route,
trottoir, etc.) mais aussi d’obtenir une mesure de la distance les séparant du véhicule ainsi que leur trajectoire afin
d’estimer le danger qu’ils peuvent représenter. On parle donc de détection, classification et localisation d’objets. Cela
se traduira par plusieurs applications comme la détection de piétons, de véhicules, de personnes ou d’objets sur le
trottoir, détection d’angle mort, etc. Le système se veut générique pour qu’il soit « applicable » sur tout type de
véhicule (voiture, train) et donc indépendant de la plateforme. Les développements sont à valider par la suite sur un
véhicule réel (selon le scenario qui sera retenu) et dans des conditions de navigation réelles non contrôlées.
Ce Post Doc aura donc pour objectif de montrer la faisabilité de concepts scientifiques et technologiques qui touchent
aux approches récentes d’intelligence artificielle comme le Deep-Learning où un travail de synthèse mettra en oeuvre
les différents méthodes et apprentissages possibles : SSD [2], YOLO V3 [1], Faster R-CNN [3], GAN, ou encore des
algorithmes de segmentation sémantique [4]. Un des critères de choix/conception des algorithmes sera le coût de
traitement, qui devra rester dans des limites raisonnables vis-à-vis des contraintes de l’embarqué.
Une des grandes difficultés actuelles du Deep Learning est le besoin de disposer de bases d’images à la fois
volumineuses et annotées, c’est-à-dire comportant des informations sur chaque image : nature et position des objets,
voire segmentation des objets pixel par pixel, ce qui est très coûteux. De telles bases (COCO, Pascal-VOC, ImageNet,
etc) sont déjà disponibles, mais certaines applications nécessitent de constituer des bases spécifiques. Pour pallier à
cet inconvénient, une des évolutions actuelles du Deep Learning est d’apporter un aspect non-supervisé (ou "autosupervisé")
à l’apprentissage. Différentes études ont déjà montré l’efficacité de cette approche : amélioration de la
détection des objets quand il est utilisé en combinaison avec l’apprentissage supervisé [5][6], voire obtention de
résultats de détection pratiquement équivalents à ceux des méthodes supervisées, quand il est utilisé seul [7]. De
même, utilisé sur des séquences d’images, l’apprentissage non-supervisé semble s’avérer efficace pour extraire le flot
optique, et donc permettre de faciliter la détection des objets en mouvements [8][9][10], et encore pour extraire la
profondeur d’une scène à partir d’une seule caméra [11]. Toutes ces pistes seront intéressantes à investiguer car elles
devraient permettre d’automatiser toute une partie des apprentissages à réaliser. Toujours dans cette optique
d’automatisation de la génération des bases d’apprentissage, une autre voie actuellement en développement dans le
domaine du Deep Learning est l’utilisation d’environnements virtuels 3D, permettant d’automatiser la génération de
la vérité-terrain ("ground-truth"), c’est-à-dire des annotations accompagnant ces images [12]. Cela peut permettre
notamment de générer des images de personnes avec des positions et des déplacements voulus, et donc avec une
grande variété de situations [13]. L’utilité de ces images virtuelles pour le projet devra également être investiguée.
Une des solutions pourra être la génération d’une nouvelle base d’images, dite hybride, combinant images réelles et
images de synthèse.
Un autre principal inconvénient du Deep-Learning tel qu’il existe aujourd’hui est la puissance de calcul nécessaire aux
apprentissages, rendant coûteux le test de chaque nouveau modèle à partir d’une nouvelle base d’apprentissage. Il
sera également intéressant d’orienter les études vers des architectures de réseaux de neurones convolutionnels plus
simples que celles existantes aujourd’hui, sans dégradation sensible de la qualité des estimations. La perception est basée sur une caméra perspective/stéréo/RGB-D pour le traitement d’images et la mesure de
distance (Intel RealSense) fournissant une information de profondeur de la scène présente dans le champ visuel. Elle
jouera aussi le rôle de vérité terrain pour qualifier les approches d’estimation de distance basée deep learning. Par la
suite, d’autres types de données pourraient enrichir la perception pour accroitre les décisions et déclencher donc des
actions de hautes précisions.

Vous êtes titulaire d’un Doctorat dans le domaine de la vision par ordinateur. Vous avez acquis de solides compétences
dans les domaines liés à la vision par ordinateur, traitement d’images, robotique mobile, reconnaissance de formes et
Deep Learning. Vous avez une expérience en Deep Learning. Toute expérience préalable dans le domaine de la
perception et la détection d’objets constituera un avantage certain.

L’équipe encadrante est constituée de :
- R. Khemmar, B. Decoux et Jean-Yves. Ertaud
- Contacts : recrutement-rh@esigelec.fr

 

 

Dans cette rubrique

(c) GdR 720 ISIS - CNRS - 2011-2019.