Vous êtes ici : Accueil » Kiosque » Annonce

Identification

Identifiant: 
Mot de passe : 

Mot de passe oublié ?
Détails d'identification oubliés ?

Annonce

24 février 2020

Offre de thèse - "Apprentissage profond pour les séquences d'images" (IMS, Bordeaux)


Catégorie : Doctorant


« Apprentissage profond semi-supervisé pour les séquences d’images : Applications à la conduite autonome et à la télédétection »

 

Laboratoire :IMS (Laboratoire de l’Intégration du Matériau au Système), UMR CNRS 5218

351 cours de la Libération, 33400 Talence, France

 

Supervision :Yannick Berthoumieu (directeur) - Bordeaux INP / IMS

Guillaume Bourmaud (co-encadrant) - Bordeaux INP / IMS

Rémi Giraud (co-encadrant) - Bordeaux INP / IMS

 

Financement : Bourse ministérielle (MESR)

 

Description du sujet :

Le domaine de la vision par ordinateur a été métamorphosé, en quelques années seulement, par l'avènement des techniques dites d’apprentissage profond ou Deep Learning (DL), notamment à travers les réseaux de neurones à convolution [1]. Cette thèse cherchera à développer et valider des techniques de DL dans le contexte spécifique des séquences d’images (vidéos, séries temporelles, prises de vues multiples, etc) où les défis et domaines d’applications sont multiples.

La prise en compte explicite de la nature séquentielle des données pose en effet problème à plusieurs titres. D’une part, l’empreinte mémoire d’un réseau de neurones dédié à une séquence d’images peut vite devenir démesurée. A cela s’ajoute la difficulté de généraliser l’opération de convolution à ce type de données. D’autre part, les architectures de réseaux de neurones récurrents, comme les réseaux Long-Short-Term-Memory (LSTM) [2], qui étaient historiquement dédiées aux séries temporelles, s’avèrent dépassées [3]. Ces architectures sont en effet progressivement remplacées, en traitement de la parole et du texte, par des réseaux non-récurrents utilisant des couches d’« attention » [4]. La question de l’architecture du réseau de neurones pour des problèmes faisant intervenir des séquences d’images est donc loin d’être résolue, et sera au coeur de cette thèse.

D’un point de vue applicatif, les systèmes d’aide à la conduite et les systèmes de télédétection dépendent directement de l’étude de séquences d’images. En effet, dans le contexte de la conduite autonome, de nombreuses données vidéos ont été rendues disponibles dans le but d’apprendre à analyser sémantiquement les scènes urbaines [5], rendant cette application privilégiée pour concevoir de nouvelles architectures de réseaux de neurones. Néanmoins, les annotations sémantiques sur ces séquences restent parfois imprécises voire incohérentes au fil de la vidéo. Ce premier domaine d’application est donc particulièrement adapté pour développer des techniques de DL semi-supervisé, voire auto-supervisé. Très attrayantes sur le papier, la mise en oeuvre de ces approches donne lieu à divers problèmes (minima locaux, pertinence du critère auto-supervisé vis-à-vis du problème considéré, etc.) pour lesquels des réponses restent à apporter dans le cadre des séquences d’images.

Le domaine de la télédétection offre également des quantités de données importantes dont la spécificité rend encore difficile l’utilisation de techniques de DL. En effet, contrairement au contexte de la conduite autonome, les processus d’acquisition temporels, tels que SENTINEL [6], sont périodiques et spatialement irréguliers. De plus, la quantité de données sémantiquement annotées reste faible. Enfin, plusieurs capteurs, radar et optique (données multi-modales), peuvent être utilisés.

L’objectif de cette thèse est donc le développement et la validation de nouveaux outils méthodologiques qui permettront de répondre aux problématiques posées par la modélisation et l’application de réseaux de neurones profonds à des séquences d’images. Les premiers travaux à mener se focaliseront sur la généralisation des modèles récents de couche d’attention et d’apprentissage auto-supervisé aux séquences d’images.

 

Profil recherché :

Diplômé de Master ou d'école d'ingénieurs, spécialisé en informatique image et/ou intelligence artificielle. Des bases techniques solides en programmation sont demandées (Python, C, C++), et quelques connaissances en traitement d'images et apprentissage profond (TensorFlow, PyTorch) sont un plus non négligeable. La maîtrise de l'anglais scientifique et des qualités rédactionnelles sont également très importantes.

 

Candidature :

Pour candidater, envoyer un dossier avec CV, lettre de motivation, relevés de notes, ainsi que toute pièce susceptible de renforcer la candidature (lettre de recommandation, etc.). Pour l'envoi des pièces demandées, ou pour toute question sur le sujet : yannick.berthoumieu@ims-bordeaux.fr

 

Références :

[1] A. Krizhevsky, I. Sutskever, G. Hinton : ImageNet Classification with Deep Convolutional Neural Networks. Advances in neural information processing systems (NIPS). 2012.https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

[2] S. Hochreiter, J. Schmidhuber. Long short-term memory. Neural computation. 1997.https://www.bioinf.jku.at/publications/older/2604.pdf

[3] E. Culurciello : The fall of RNN / LSTM. 2018. https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0

[4] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, J. Jones, L. Gomez, I. Polosukhin. Attention is all you need. Advances in neural information processing systems (NIPS). 2017. https://arxiv.org/abs/1706.03762

[5] A. Geiger, P. Lenz, C. Stiller, R. Urtasun. Vision meets robotics: The KITTI dataset. The International Journal of Robotics Research. 2013. https://journals.sagepub.com/doi/full/10.1177/0278364913491297

[6] R. Torres, P. Snoeij, et al. GMES Sentinel-1 mission. Remote Sensing of Environment. 2012.

https://www.sciencedirect.com/science/article/abs/pii/S0034425712000600



Dans cette rubrique

(c) GdR 720 ISIS - CNRS - 2011-2020.