Annonce

Les commentaires sont clos.

Reconnaissance par caméra événementielle : CNN vs SNN

29 Novembre 2021


Catégorie : Stagiaire


Les techniques d'apprentissage profond basées sur des réseaux convolutifs sont aujourd'hui de formidables outils pour accomplir des tâches de très haut niveau en vision par ordinateur. Néanmoins, elles restent peu efficaces dans le cas des caméras évènementielles puisque les filtres convolutifs ne sont pas nécessairement adaptés à ce type de caméras par la nature même de l'acquisition. En effet, le filtrage convolutif suggère une interdépendance spatialeentre les pixels voisins qui n'est pas vérifiée sur ces images et nécessite donc des calculs trèscouteux en temps de calcul alors que peu de pixels sont activés.

C'est pourquoi ce stage a pourobjectif de revisiter les approches d'apprentissage profond pour des problématiques de reconnaissances d'objets et/ou lieux tout en tirant partie de la spécificité de ces images.

 

La littérature présente de nombreux travaux sur les caméras évènementielles basées sur des techniques d'apprentissage profond [1]. Étant donné que les images évènementielles nepeuvent être traitées par des filtres convolutifs spatiaux comme des images classiques, lesauteurs proposent deux représentations souvent antinomiques. La première consiste àreprésenter une série d'images évènementielles en un bloc 3D sur lequel les approches convolutives CNN peuvent s'adapter [2]. Les secondes consistent à utiliser d'autres outils d'apprentissage profond plus adaptés au type de données acquises par ces capteurs : les SNN(Spiking Neural Networks) - réseau de neurones à impulsions [3]. L'un des inconvénients potentiels des CNN est leur coût de calcul, ce qui les rend incompatibles avec la faible puissance et la faible latence naturelles des caméras évènementielles. Au contraire, les réseaux de neurones à impulsions SNN sont théoriquement plus efficaces en termes de consommation d'énergie et de temps de calcul, mais la réalisation de ces gains nécessite desalgorithmes et du matériel spécialisés. De plus, leur caractère binaire et discontinue ne permet pas de développer des techniques basées sur des descentes de gradient pour la recherche d'optimum dans la phase d'apprentissage.

L'objet de ce stage sera d'évaluer dans quelles mesures les inconvénients et avantages des deux approches ont un impact dans des architectures neuronales pour la reconnaissance d'objets et de lieux. Ainsi nous reprendrons les algorithmes de la littérature et nous analyserons les limites de chacun dans l'application visée ici. Ces méthodes seront la base de références pour le développement futur de nouveaux algorithmes lors de la thèse qui pourra être proposée à l'issue du stage.

1. Gallego, G., Delbrück, T., Orchard, G., Bartolozzi, C., Taba, B., Censi, A., Leutenegger, S., Davison, A., Conradt, J., Daniilidis, K., Scaramuzza, D. (2020). “Event-based vision: A survey”, IEEE Transactions on Pattern Analysis and Machine Intelligence, July 2020.

2. Sekikawa, Y., Hara, K., Saito, H. (2019). “EventNet: Asynchronous recursive event processing”, In Proc. IEEE Conference on Computer Vision and Pattern Recognition, pp. 3887-3896.

3. Gehrig, M., Shrestha, S. B., Mouritzen, D., Scaramuzza, D. (2020). “Event-based angular velocity regression with spiking networks”, In Proc. IEEE International Conference on Robotics and Automation, pp. 4195-4202.

Contacts :

Pascal Vasseur (pascal.vasseur@u-picardie.fr)
Laboratoire MIS – Université de Picardie Jules Verne
33 Rue Saint Leu
80000 Amiens

Fabio Morbidi (fabio.morbidi@u-picardie.fr)
Laboratoire MIS – Université de Picardie Jules Verne
33 Rue Saint Leu
80000 Amiens

Cédric Demonceaux (cedric.demonceaux@u-bourgogne.fr)
Laboratoire ImViA – Université de Bourgogne Franche-Comté

Le stage se déroulera au laboratoire MIS – Université de Picardie Jules Verne. Il prend place au sein du projet ANR CERBERE et pourra donner lieu à une proposition de thèse à l'issue de la période. Le stage est gratifié sur la base horaire légale pour une durée de temps de travail de 35H par semaine.

Les compétences humaines requises sont la motivation, l'autonomie et la communication. Les compétences scientifiques concernent les domaines de la vision, de l'image, des méthodes par apprentissage et plus généralement de l'informatique. Les compétences techniques attendues sont la programmation (C++, Pytho, ...), l'utilisation de bibliothèques (OpenCV, NumPy, TensorFlow, PyTorch, ...) et l'usage de matériels tels que les caméras, les cartes GPU,