Annonce

Les commentaires sont clos.

Stage de Master 2 : Reconnaissance d’activités humaines par caméra neuromorphique et application à la santé et au suivi de la personne.

17 Janvier 2023


Catégorie : Stagiaire


Ce sujet de stage de master 2 vient en préalable d’un sujet de thèse financé, collaboration entre l’IMT Nord Europe et l’Université Gustave Eiffel (Univ. Eiffel), dont l’objectif sera de développer un réseau de neurones à impulsions capable de reconnaître une activité humaine. Nous recherchons un candidat motivé par continuer en thèse sur ce sujet.

Responsables du sujet :

Anthony Fleury, Professeur, IMT Nord Europe (anthony.fleury@imt-nord-europe.fr)

Sébastien Ambellouis, Ingénieur de Recherche, Université Gustave Eiffel (sebastien.ambellouis@univ-eiffel.fr) et Cyril Meurie (cyril.meurie@univ-eiffel.fr), Chargé de Recherche, Université Gustave Eiffel

Laboratoire de rattachement : CERI Systèmes Numériques, IMT Nord Europe, Site de Douai Lieu : le stage se déroulera de préférence à Douai (20 mins en train de Lille) mais un accueil à

Lille (campus de l’université) est envisageable.

Candidatures : les candidatures sont attendues avant le 1er février. Le candidat enverra ses résultats académiques disponibles, son CV ainsi qu’une lettre de motivation succincte présentant l’intérêt pour le sujet. Le financement du stage (gratification) est d’une durée de 5 mois, le recrutement se ferait (délais administratifs) au 1er avril.

 

Ce sujet de stage de master 2 vient en préalable d’un sujet de thèse financé, collaboration entre l’IMT Nord Europe et l’Université Gustave Eiffel (Univ. Eiffel), dont l’objectif sera de développer un réseau de neurones à impulsions capable de reconnaître une activité humaine. Nous recherchons un candidat motivé par continuer en thèse sur ce sujet.

De nombreuses équipes de recherche ont étudié et étudient encore comment l’analyse des images et l’apprentissage machine peuvent contribuer à automatiser la tâche de surveillance pour des applications de sûreté, de sécurité ou plus globalement d’aide à la vidéo-surveillance. Jusqu’à aujourd’hui ces actions cherchaient à interpréter le contenu d’un flux d’images provenant d’une ou plusieurs caméras vidéo en modélisant le comportement des personnes interagissant avec leur environnement. Pour cela, les méthodes proposaient de bien identifier les personnes (le premier plan) en les séparant de leur environnement (l’arrière-plan) tout au long de la séquence : étaient utilisées des méthodes de soustraction de fond, des méthodes de détection de personnes et des techniques de suivi de leur déplacement. Le comportement était alors modélisé à partir de l’évolution des différentes formes au cours du temps [1,2,3].

Récemment, une nouvelle technologie de caméra appelée caméra neuromorphique (CN) ou caméra à événements est apparue. Une telle caméra est composée d’un capteur qui réagit aux changements locaux de luminosité et non à la valeur absolue de la luminosité réfléchie dans la scène comme c’est le cas des caméras traditionnelles. Ces dernières capturent les images à l'aide d'un obturateur, chaque pixel du capteur de la CN fonctionne alors de manière indépendante et asynchrone. Ce processus de mesure permet de signaler les changements de luminosité au fur et à mesure, des changements qui sont la plupart du temps une contribution des objets en mouvement dans la scène. Ainsi seuls les pixels d’un objet en mouvement auront une valeur non nulle. Cette technologie de capteur permet d’augmenter de manière très importante la résolution temporelle des données mesurées, d’avoir une grande sensibilité, de limiter les sous/surexpositions et le flou de mouvement. Dans le même temps, la quantité des données pixels (valeur non nulle) acquise et transmise est plus bien réduite, réduisant ainsi la demande en termes de bande passante et par conséquent la quantité d’énergie nécessaire à son fonctionnement. Ces propriétés sont un atout très important dans le cadre du développement de systèmes intelligents autonomes et/ou embarqués. Ainsi, dans le cadre d’une vidéo surveillance intelligente par caméra fixe, une CN, construisant des mesures directement reliées aux mouvements présents dans la scène, constitue un choix idéal pour capturer finement les actions humaines dans son champ de vision sans nécessiter de séparer automatiquement le premier plan de l'arrière-plan.

Dans ce sujet, il s’agit d’analyser le contenu des flux d’événements produits par une CN fixe surveillant une ou plusieurs personnes en action ou en interaction dans une scène. En présence de données neuromorphiques, les défis auxquels nous sommes confrontés sont la nature asynchrone des données produites par la caméra, la présence d’événements de type « bruit », l’association des événements asynchrones entre eux afin d’identifier des mouvements plus globaux liés à un ou plusieurs objets en interaction, le manque d’informations liées au contexte capturées généralement par des caméras traditionnelles et l’absence de données lorsque peu de mouvements sont présents dans la scène.

A ce jour et comme nous le précisions précédemment, les travaux cherchant à extraire de l’information à partir du flux des événements d’une CN sont assez peu nombreux : pour la détection d'objets [4-6], pour la détection de piétons [7,8] et la reconnaissance des gestes de la main [9-11]. Lorsqu’il s’agit d’opérer une reconnaissance d'actions multi-classes, les solutions sont encore rares [12-15]. La plupart de ces méthodes commencent par agréger temporellement les polarités fournies par le capteur afin de produire un ensemble d’images respectant la fréquence d'images des caméras conventionnelles. Les images ainsi produites constituent ensuite l’entrée des différents modèles de reconnaissance des actions que la communauté nous propose aujourd’hui. Les modèles les plus anciens et présentant les performances les moins élevées exploitent un extracteur de caractéristiques classiques (handcrafted feature extractor) et une technique de modélisation telle qu’un GMM, HMM ou un SVM [12]. Les méthodes les plus récentes et les plus performantes effectuent l’extraction des caractéristiques à partir d’un réseau de neurones profond et assurent la tâche de classification par des techniques de modélisation traditionnelles ou neuronales [13-15]. Très récemment, dans [16] les auteurs ont proposé d’exploiter un réseau de neurones à impulsion pour classer un ensemble d’actions humaines quotidiennes directement à partir du flux d’événements fournis par une CN. L’entrée du réseau est composée d’un ensemble d’événements agrégés sur un intervalle temporel donné. L’architecture SNN est ensuite composée de plusieurs couches de perception locale du mouvement à partir desquelles un module de perception globale permet de classer l’action en cours. Cette architecture est évaluée sur les trois bases d’images suivantes : DailyAction-DVS [16], DvsGesture [17] et Action Recognition dataset [18]. L’évaluation montre la pertinence de ce SNN dans cette tâche de reconnaissance.

Il est important de noter que les méthodes d’apprentissage profond nécessitent de larges bases d’apprentissage annotées. Les bases d’images actuellement disponibles et utilisées dans les publications ont été produites pour la plupart à partir de caméras traditionnelles. Dans un premier temps, en attendant que de nouvelles bases produites à partir d’une CN soient diffusées par la communauté, les études proposent de synthétiser de telles données en simulant leur processus de production (échantillonnage spatio-temporelle spécifique) à partir des bases d’images RGB classiques (KTH , UCF11, UCF50, HMDB51). Récemment, de nouvelles bases de données événements ont été produites à partir d’une CN soit en filmant directement à l’écran les vidéos précédemment citées, soit en filmant directement avec une CN les actions humaines à modéliser [18].

Lors de ce stage, le candidat commencera par réaliser un état de l’art complet des méthodes de HAR à partir de l’analyse des données fournies par une caméra traditionnelle et d’une CN. Il s’inspirera du travail proposé dans [15] et [16], pour étudier comment il est possible d’adapter certaines méthodes actuelles pour répondre aux différents défis présentés précédemment.

Le sujet de stage restera plus global, le sujet de thèse lui sera axé sur la reconnaissance d’action et d’activité pour des sujets liés à la santé et au suivi de la personne âgée à domicile.
Références :

[1] Carolina Garate, Sofia Zaidenberg, Julien Badie, François Bremond, Group Tracking and Behavior Recognition in Long Video Surveillance Sequences, International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications, 2014
[2] Carlos Crispim, François Bremond. Uncertainty Modeling Framework for Constraint-based Elementary Scenario Detection in Vision System, International Workshop on Computer vision + ONTology Applied Cross-disciplinary Technologies in Conjunction with ECCV, 2014

[3] S.A.W. Talha, M. Hammouche, E. Ghorbel, A. Fleury, S. Ambellouis, Features and classification schemes for view-invariant and real-time human action recognition, IEEE Transaction on Cognitive and Developmental Systems, 2018
[4] Y. Bi, A. Chadha, A. Abbas, E. Bourtsoulatze, and Y. Andreopoulos, Graph-based object classification for neuromorphic vision sensing, IEEE International Conference on Computer Vision, 2019

[5] W. Shi and R. Rajkumar, Point-GNN: Graph neural network for 3D objectdetection in a point cloud, IEEE/CVF conference on computer vision and pattern recognition, 2020
[6] Q. He, Z. Wang, H. Zeng, S. Zeng, Y.and Liu, and B. Zeng, SVQA-Net:Sparse voxel-graph attention network for 3D object detection from pointclouds, arXiv preprint arXiv:2006.04043, 2020.

[7] G. Chen, H. Cao, C. Ye, Z. Zhang, X. Liu, X. Mo, Z. Qu, J. Con-radt, F. Röhrbein, and A. Knoll, Multi-cue event information fusionfor pedestrian detection with neuromorphic vision sensors, Frontiers inneurorobotics, vol. 13, p. 10, 2019
[8] Y. Wang, X. Zhang, Y. Shen, B. Du, G. Zhao, L. C. C. Lizhen, and H. Wen, Event-stream representation for human gaits identification using deepneural networks, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021

[9] Q. Wang, Y. Zhang, J. Yuan, and Y. Lu, Space-time event clouds forgesture recognition: From RGB cameras to event cameras, Winter Conference on Applications of Computer Vision (WACV), 2019
[10] A. M. George, D. Banerjee, S. Dey, A. Mukherjee, and P. Balamurali, A reservoir-based convolutional spiking neural network for gesture recog-nition from DVS input, International Joint Conference on NeuralNetworks (IJCNN), 2020

[11] G. Chen, Z. Xu, Z. Li, H. Tang, S. Qu, K. Ren, and A. Knoll, A novel illumination-robust hand gesture recognition system with event-based neuromorphic vision sensor, IEEE Transactions on Automation Science and Engineering, 2021.
[12] S. A. Baby, B. Vinod, C. Chinni, and K. Mitra, Dynamic vision sensors for human activity recognition, IAPR Asian Conference on Pattern Recognition (ACPR), 2017.

[13] A. Chadha, Y. Bi, A. Abbas, and Y. Andreopoulos, Neuromorphic vision sensing for CNN-based action recognition, in International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019
[14] Y. Bi, A. Chadha, A. Abbas, E. Bourtsoulatze, and Y. Andreopoulos, Graph-based spatio-temporal feature learning for neuromorphic vision sensing, IEEE Transactions on Image Processing, vol. 29, 2020

[15] S. Al-Obaidi, H. Al-khafaji, C. Abhayaratne, Making Sense of Neuromorphic Event Data for Human Action Recognition, IEEE Access, 2021
[16] Liu, Qianhui et al. Event-based Action Recognition Using Motion Information and Spiking Neural Networks, IJCAI, 2021 [17] Arnon Amir et al., A low power, fully event-based gesture recognition system, CVPR, pages 7243–7252, 2017

[18] Shu Miao, Guang Chen, Xiangyu Ning, Yang Zi, Kejia Ren, Zhenshan Bing, and Alois Knoll, Neuromorphic vision datasets for pedestrian detection, action recognition, and fall detection, Frontiers in Neurorobotics, 13:38, 2019