Annonce

Les commentaires sont clos.

Proposition de thèse : Reconnaissance par caméra événementielle pour le transport intelligent : CNN vs SNN

13 Juillet 2022


Catégorie : Doctorant


Reconnaissance par caméra événementielle pour le transport intelligent : CNN vs SNN

Les techniques d'apprentissage profond basées sur des réseaux convolutifs sont aujourd'hui de formidables outils pour accomplir des tâches de très haut niveau en vision par ordinateur. Néanmoins, elles restent peu efficaces dans le cas des caméras évènementielles puisque les filtres convolutifs ne sont pas nécessairement adaptés à ce type de caméras par la nature même de l'acquisition. En effet, le filtrage convolutif suggère une interdépendance spatiale entre les pixels voisins qui n'est pas vérifiée sur ces images et nécessite donc des calculs très couteux en temps de calcul alors que peu de pixels sont activés. C'est pourquoi cette thèse a pour objectif de revisiter les approches d'apprentissage profond pour des problématiques de reconnaissances d'objets et/ou lieux tout en tirant partie de la spécificité de ces images.

La littérature présente de nombreux travaux sur les caméras évènementielles basées sur des techniques d'apprentissage profond [1]. Étant donné que les images évènementielles ne peuvent être traitées par des filtres convolutifs spatiaux comme des images classiques, les auteurs proposent deux représentations souvent antinomiques. La première consiste à représenter une série d'images évènementielles en un bloc 3D sur lequel les approches convolutives CNN peuvent s'adapter [2]. Les secondes consistent à utiliser d'autres outils d'apprentissage profond plus adaptés au type de données acquises par ces capteurs : les SNN (Spiking Neural Networks) - réseau de neurones à impulsions [3]. L'un des inconvénients potentiels des CNN est leur coût de calcul, ce qui les rend incompatibles avec la faible puissance et la faible latence naturelles des caméras évènementielles. Au contraire, les réseaux de neurones à impulsions SNN sont théoriquement plus efficaces en termes de consommation d'énergie et de temps de calcul, mais la réalisation de ces gains nécessite des algorithmes et du matériel spécialisés. De plus, leur caractère binaire et discontinue ne permet pas de développer des techniques basées sur des descentes de gradient pour la recherche d'optimum dans la phase d'apprentissage. L'objet de cette thèse sera tout d'abord d'évaluer dans quelles mesures les inconvénients et avantages des deux approches ont un impact dans des architectures neuronales pour la reconnaissance d'objets et de lieux. Ainsi nous reprendrons les algorithmes de la littérature et nous analyserons les limites de chacun dans l'application visée ici. Ces méthodes seront la base de références pour le développement de nouveaux algorithmes et architectures permettant d'allier les avantages des deux approches tout en cherchant à minimiser leurs défauts respectifs.

 

Bibliographie :

1. Gallego, G., Delbrück, T., Orchard, G., Bartolozzi, C., Taba, B., Censi, A., Leutenegger, S., Davison, A., Conradt, J., Daniilidis, K., Scaramuzza, D. (2020). “Event-based vision: A survey”, IEEE Transactions on Pattern Analysis and Machine Intelligence, July 2020.

2. Sekikawa, Y., Hara, K., Saito, H. (2019). “EventNet: Asynchronous recursive event processing”, In Proc. IEEE Conference on Computer Vision and Pattern Recognition, pp. 3887-3896.

3. Gehrig, M., Shrestha, S. B., Mouritzen, D., Scaramuzza, D. (2020). “Event-based angular velocity regression with spiking networks”, In Proc. IEEE International Conference on Robotics and Automation, pp. 4195-4202.

 

Contacts :

Pascal Vasseur (pascal.vasseur@u-picardie.fr)

Laboratoire MIS – Université de Picardie Jules Verne

33 Rue Saint Leu

80000 Amiens

 

Fabio Morbidi (fabio.morbidi@u-picardie.fr)

Laboratoire MIS – Université de Picardie Jules Verne

33 Rue Saint Leu

80000 Amiens

 

Cédric Demonceaux (cedric.demonceaux@u-bourgogne.fr)

Laboratoire ImViA – Université de Bourgogne Franche-Comté

IUT du Creusot

 

L’inscription en thèse se fera au sein de l’Université de Picardie Jules Verne et débutera en Octobre 2022. Elle s’intègre au sein du projet ANR CERBERE dont le porteur principal est le laboratoire LITIS de l'Université de Rouen et les autres partenaires sont le Laboratoire ImViA de l'Université Bourgogne Franche-Comté et la société Yumain.

Les compétences humaines requises sont la motivation, l'autonomie et la communication. Les compétences scientifiques concernent les domaines de la vision, de l'image, des méthodes par apprentissage et plus généralement de l'informatique. Les compétences techniques attendues sont la programmation (C++, Python, …), l'utilisation de bibliothèques (OpenCV, NumPy, TensorFlow, PyTorch, …) et l'usage de matériels tels que les caméras, les cartes GPU, …

Pour candidater, faites parvenir par e-mail aux trois personnes mentionnées plus haut un CV et une lettre de motivation pour ce sujet d’ici le 15 Août 2022.