Annonce

Les commentaires sont clos.

3 stages de fin d'études en perception pour le véhicule, Compiègne, UTC, Heudiasyc

15 December 2021


Catégorie : Stagiaire


Ouverture de trois sujets de stages de fin détudes (Master ou ingénieur) en perception, dans le contexte d'applications liées au véhicule intelligent :

- Fusion multimodale à l’aide de réseaux convolutifs (multimodal fusion with convolutional neural networks)
- Caméra à événements (event camera)
- Analyse d’objets en mouvements à base de Transformers (Moving objects analysis based on Transformers)

Laboratoire Heudiasyc, SyRI, Compiègne (contacter julien.moreau@hds.utc.fr et franck.davoine@hds.utc.fr).

Début du stage souhaité en février/mars.

 

Nous proposons trois stages en perception au sein de l'équipe SyRI du laboratoire Heudiasyc, à Compiègne, dans le contexte d'applications liées au véhicule intelligent.

Les trois sujets suivants sont décrits à la fin de l'annonce :
- Fusion multimodale à l’aide de réseaux convolutifs (multimodal fusion with convolutional neural networks)
- Caméra à événements (event camera)
- Analyse d’objets en mouvements à base de Transformers (Moving objects analysis based on Transformers)

Pour toute information et pour candidater, merci de contacter Franck Davoine (franck.davoine@hds.utc.fr) et Julien Moreau (julien.moreau@hds.utc.fr).
Merci de spécifier à quel sujet vous candidatez et de joindre à votre candidature tout élément tangible sur les compétences que nous recherchons, ainsi que vos relevés de notes et les coordonnées de référents que nous pourrions contacter.

Dates:
5 ou 6 mois à paritr de février ou mars 2022


Compétences recherchées (en plus des éventuelles spécificités des sujets) :
> Savoir :
Background computer vision si possible
Bon anglais, et capacité de synthèse d’articles scientifiques pointus
> Savoir faire :
Développement logiciel pour les algorithmes (python, C++)
Bonus : connaissance du middleware ROS
> Savoir être :
Intérêt pour les expérimentations réelles
Autonomie et fort engagement
Capacité à travailler en collaboration avec les équipes du projet


======

Fusion multimodale à l’aide de réseaux convolutifs


En perception pour le véhicule intelligent, la fusion de modalités permet une bonne robustesse de la tâche de détection. L'inconvénient est que la mise en pratique réelle de ces méthodes n'est pas évidente, car les capteurs doivent être calibrés et synchronisés entre eux.

Des capteurs multi-modalités tout-en-un commencent à entrer sur le marché, ce qui résout les problèmes de calibrage extrinsèque et de synchronisation et facilite leur intégration. Le laboratoire Heudiasyc a fait l'acquisition d'un capteur "Pandora" [1] composé de 4 caméras niveaux de gris de tous les côtés, d'une caméra RGB frontale, et d'un lidar 40 nappes à 360 degrés. Il permet une observation omnidirectionnelle de la scène avec les modalités image et nuages de points 3D.

Les images sont 2D, denses, échantillonnées en pixels réguliers, et contiennent l'intensité lumineuse (voire la couleur) de la surface observée. Les nuages de points sont 3D, éparses, non réguliers (pas d'échantillonnage, ce qui peut causer un déséquilibre entre zones vides et zones encombrées), et contiennent une information de distance/profondeur et parfois de réflectivité de la surface observée.

L'objet de ce stage est de s'intéresser à la fusion de données hétérogènes au sein d'un réseau de neurones. En fait, les images sont généralement traitées par des réseaux convolutifs classiques, tandis que les nuages de points 3D peuvent être approximés par une représentation 2D similaire à des images [2] ou bien être traités en 3D avec des architectures de réseaux différentes [3].

Un aspect peu exploré est celui du fonctionnement en cas de manquement ou de fautes de l'une des modalités [4]. Nous chercherons des méthodes de détection de faute et d'exclusion d'une modalité, ou d'estimation de confiance des modalités dans le processus de fusion du réseau de neurones. L'utilisation conjointe d'autres modalités de capteurs pourra également être envisagée.

Le stage pourra traiter des données acquises avec les véhicules robotisés et les capteurs dont dispose le laboratoire Heudiasyc (caméras, lidars, etc.), ou bien des données issues de jeux de données publics, ou encore des données générées par simulation avec des annotations parfaites.

[1] https://www.hesaitech.com/en/Pandora
[2] E. Capellier (2020). Application of machine learning techniques for evidential 3D perception, in the context of autonomous driving. Thèse de doctorat UTC.
[3] M. Najibi et al. (2018). DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
[4] H. Zhong, H. Wang, Z. Wu, C. Zhang, Y. Zheng, T. Tang (2021). A survey of LiDAR and camera fusion enhancement. Procedia Computer Science, Volume 183, Pages 579-588.


======

Caméra à événements


Les caméras à événements sont inspirées du système visuel et neuronal humain, sensible aux mouvements. Au lieu de capturer des trames images, elles renvoient en continu les changements de luminosité des pixels de manière asynchrone. Ces événements sont négatifs ou positifs dès lors que la variation de luminosité dépasse un seuil [1].

Les caméras à événements ont de nombreux atouts : dynamique inégalée (pas d'éblouissement, fonctionne de nuit), pas de flou de mouvement, faible consommation énergétique. Ces caméras apportent une information quasi sans latence, ce qui permet plus de sûreté et de fiabilité que la perception classique en environnements dynamiques. Pour toutes ces raisons, les caméras à événements sont a priori très adaptées à la robotique mobile.

Cependant, un verrou est encore à lever pour une exploitation optimale des capacités des caméras à événements pour les robots mobiles : séparer les événements dus aux mouvements du robot lui-même (egomotion) des mouvements des objets évoluant dans la scène observée.

Peu de travaux se penchent sur ce problème [2, 3], pourtant central pour une intégration en série de ce capteur aux véhicules intelligents.
Pour compléter les travaux de thèse de V. Brebion [4] au laboratoire Heudiasyc, qui a développé une méthode de calcul du flot optique basé événements fonctionnant en temps réel avec une excellente précision, l'objectif de ce stage est de mettre au point une méthode de séparation des mouvements "internes" et "externes" précise et rapide.

Il s'agit d’abord de faire un état de l'art et de comparer les algorithmes proposés dans la littérature, ainsi que d'explorer les problématiques voisines (telles que le flot optique, la compensation du mouvement, la maximisation du contraste sur échantillons temporels). Puis, de proposer de nouveaux traitements dans le contexte du véhicule autonome. Tous types de méthodes pourront être envisagées : heuristiques ou par apprentissage.

[1] Posch, C., Serrano-Gotarredona, T., Linares-Barranco, B., & Delbruck, T. (2014). Retinomorphic event-based vision sensors: bioinspired cameras with spiking output. Proceedings of the IEEE, 102(10).
[2] Stoffregen, T. and Gallego, G. and Drummond, T. and Kleeman, L. and Scaramuzza, D. (2019). Event-Based Motion Segmentation by Motion Compensation. IEEE International Conference on Computer Vision (ICCV).
[3] Falanga, D. and Kleber, K. and Scaramuzza, D. (2020). Dynamic obstacle avoidance for quadrotors with event cameras. Science Robotics Journal, 40.
[4] Brebion, V. (2020-2023) Perception multimodale des vulnérables pour la conduite autonome en environnement urbain. Thèse de doctorat, UTC Heudiasyc (en cours).


======

Analyse d’objets en mouvements à base de Transformers


Les voies de circulation urbaines sont de plus en plus partagées entre véhicules et personnes en mobilité douce qualifiées de vulnérables (piétons, vélos, trottinettes, etc.), dont les comportements parfois erratiques peuvent nuire à leur sécurité. Nous travaillons au sein du laboratoire Heudiasyc à la sécurisation de la conduite des véhicules sur route en améliorant leurs capacités de détection vis-à-vis de ces personnes vulnérables.

Récemment, des solutions ont été présentées dans la littérature à base de Transformers [1] (qui eux-mêmes s’appuient sur des mécanismes d’auto-attention [2]) et de réseaux de neurones récurrents pour la traduction automatique de textes. Le mécanisme d’auto-attention a également été exploité pour des tâches de segmentation d’images [3] par réseaux de neurones profonds, et plus récemment pour des tâches de détection ou de localisation d’objets visuels [4, 5]. Ces méthodes sont à même de capturer des dépendances contextuelles (relations entre caractéristiques locales et globales) dans les images. D’autres propositions, toujours à base de mécanisme d’auto-attention, visent à se passer des réseaux profonds à convolution pour la classification d’images [6].

En s'inspirant de ces travaux, l'objectif du stage sera de contribuer au développement de méthodes de détection d'objets (en l'occurrence, des vulnérables) à l'aide de capteurs commerciaux de type caméras RGB ou caméras à événements, ceux-ci fournissant respectivement des informations sur l'apparence visuelle et le mouvement des objets évoluant dans la scène. Au lieu de capturer des trames images, les caméras à événements renvoient en continu les changements de luminosité des pixels de manière asynchrone. Ces événements sont négatifs ou positifs dès lors que la variation de luminosité dépasse des seuils.

La ou le stagiaire étudiera des méthodes de la littérature à base de Transformers telles que celles précitées, et proposera une solution permettant de détecter [7] les objets directement à partir de leur apparence et/ou de leur mouvement. Dans ce dernier cas, une attention particulière sera portée à l’estimation du flot optique par apprentissage à partir des événements. Il sera alors nécessaire de choisir la représentation des événements [8] la mieux adaptée pour un apprentissage à l’aide de Transformers.
L’évaluation de la méthode proposée se fera à l’aide de bases de données publiques disponibles sur Internet.

[1] Salman Khan, Muzammal Naseer, Munawar Hayat, Syed Waqas Zamir, Fahad Shahbaz Khan, Mubarak Shah. Transformers in Vision: A Survey. Oct. 2021. arXiv:2101.01169v4
[2] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin. Attention is All you Need. NIPS 2017. arXiv:1706.03762
[3] Jun Fu, Jing Liu, Haijie Tian, Yong Li, Yongjun Bao, Zhiwei Fang, Hanqing Lu. Dual Attention Network for Scene Segmentation. Apr. 2019. arXiv:1809.02983v4
[4] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko. End-to-End Object Detection with Transformers. May 2020. arXiv:2005.12872v3
[5] Oriane Siméoni, Gilles Puy, Huy V. Vo, Simon Roburin, Spyros Gidaris, Andrei Bursuc, Patrick Pérez, Renaud Marlet and Jean Ponce. Localizing Objects with Self-Supervised Transformers and no Labels. Sept. 2021. arXiv:2109.14279v1
[6] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. 2020. arXiv:2010.11929
[7] Etienne Perot, Pierre de Tournemire, Davide Nitti, Jonathan Masci, Amos Sironi. Learning to Detect Objects with a 1 Megapixel Event Camera. NeurIPS 2020.
[8] Marco Cannici, Marco Ciccone, Andrea Romanoni, Matteo Matteucci. A Differentiable Recurrent Surface for Asynchronous Event-Based Data. ECCV 2020.