Annonce
Thèse: Détection des objets à saisir et l'estimation de la pose 6D avec les DNNs guidés par le regard : application à l'assitance des porteurs de neuroprothèses des membres supérieurs.
28 Avril 2023
Catégorie : Doctorant
Detection of objects to grasp and their 6D pose estimation with Gaze-driven DNNs for assistance of upper limb neuro-prostheses control.
Détection des objets à saisir et l'estimation de la pose 6D avec les DNNs guidés par le regard : application à l'assitance des porteurs de neuroprothèses des membres supérieurs.
Supervisors: Jenny Benois-Pineau (LABRI/Univeristé de Bordeaux), co-supervisor Renaud Péteri (MIA/ Université de La Rochelle)
Le financement est assujetti à l'acceptation du projet ANR déposé.
Contact : jenny.benois-pineau@u-bordeaux.fr
Visual assistance to the control of bionic neuro-prostheses is a quickly developing research topic, both in computer vision and assistive robotics [1].
The problem of object recognition in video with natural cluttered environment and their 6 Degree of Freedom (DoF) pose estimation still remains open, as the cluttered background, lightening changes decrease the performance of SOA object detectors such as Yolo family [2]. Yet, these object detectors and coordinate regressors perform starting from a regular grid and process the entire image. For their real-time performance, the visual scene has also to be relatively uncluttered. However, in the case of real-world scenarios for visual assistance to neuro-prostheses wearers, such as kitchens, this hypothesis on a non-cluttered visual scene does not hold.
The use of filtered-along-the-time gaze fixation coordinates in the current frame [3], will allow to restrict the grid search, making the object detection and localization network lighter. While most object detectors are frame-based, recognizing and localizing objects independently of the history of their detection in previous video frames, visual tracking approaches allow for temporal linking of objects with progressively changing appearance [4]. Tracking algorithms nowadays can use learned features, extracted by a CNN and thus make a part of an integrated object detection, localization and tracking framework to be built on the same Deep NN backbone. Collaboration between a gaze -driven object detector and a tracker using the confidence of detection and temporal prediction will allow for a more precise object localization in the video frames. Furthermore, the change in pose and appearance of the object-to-grasp can be successfully handled by model adaptation via incremental learning approaches such as [5].
In order to control the prosthetic, it is necessary to estimate the 6-DoF pose of the previously localized object from the RGB video stream. This pose estimation is relative to a reference frame attached to the glasses of the neuro-prostheses wearer. Estimating the pose of an object in a 3D scene has been the topic of many works in Computer Vision, and methods mostly differ on their generalization ability (clutter background, extension to unknown category of object), on the use of a model for the object of interest (e.g., 3D models, training images of the target objects) and on the input required at test time (e.g., RGB images, depth maps, other sensors). Moreover, our recent works showed that, if the dimensions of the object are known, it is possible to precisely estimate its centroid 3D coordinates in the scene from a single mono-camera [6]. In our case, we will develop a 6-DoF pose estimation and avoid the use of 3D models or depth sensors. To that aim, the latest development of deep learning architectures like Transformers to learn a pose regressor from a single image [7] and take advantage of obtained gaze information at previous step to initialize the pose estimation of the object to be grasped.
Détection d'objets à saisir et estimation de leur pose 6D avec des DNNs pilotés par le regard pour l'assistance au contrôle des neuro-prothèses des membres supérieurs.
Directeurs : Jenny Benois-Pineau (LABRI/Université de Bordeaux), Renaud Peteri (MIA/Université de La Rochelle)
L'assistance visuelle au contrôle des neuro-prothèses bioniques est un sujet de recherche qui se développe rapidement, à la fois en vision par ordinateur et en robotique d'assistance [1]. Le problème de la reconnaissance d'objets dans des vidéos avec un environnement naturel encombré et de l'estimation de leur pose à 6 degrés de liberté reste toujours ouvert, car l'arrière-plan encombré et les changements d'éclairage diminuent les performances des détecteurs d'objets SOA tels que ceux de la famille Yolo [2]. Cependant, ces détecteurs d'objets et ces régresseurs de coordonnées fonctionnent à partir d'une grille régulière et traitent l'ensemble de l'image. Pour qu'ils fonctionnent en temps réel, la scène visuelle doit être relativement peu encombrée. Cependant, dans le cas de scénarios réels d'assistance visuelle aux porteurs de neuroprothèses, comme les cuisines, cette hypothèse d'une scène visuelle non encombrée n’est pas vérifiée.
L'utilisation des coordonnées de fixation du regard filtrées tout au long du temps dans l'image vidéo courante [3] permet de limiter la zone de recherche, ce qui allège le réseau de détection et de localisation des objets. Alors que la plupart des détecteurs d'objets sont basés sur les images, reconnaissant et localisant les objets indépendamment de l'historique de leur détection dans les images vidéo précédentes, les approches de suivi visuel permettent de relier dans le temps des objets dont l'apparence change progressivement [4]. Les algorithmes de suivi peuvent aujourd'hui utiliser des caractéristiques apprises, extraites par un CNN, et faire ainsi partie d'un cadre intégré de détection, de localisation et de suivi d'objets à construire sur la même base du réseau profond. La collaboration entre un détecteur d'objets piloté par le regard et un outil du suivi utilisant la confiance de la détection et de la prédiction temporelle permettra une localisation plus précise des objets dans les images vidéo. En outre, le changement de pose et d'apparence de l'objet à saisir peut être géré avec succès par l'adaptation du modèle via des approches d'apprentissage incrémental telles que [5].
Afin de contrôler la prothèse, il est nécessaire d'estimer la pose 6-D de l'objet précédemment localisé à partir du flux vidéo RVB. Cette estimation se fait par rapport à un repère de référence attaché aux lunettes du porteur de la neuroprothèse. L'estimation de la pose d'un objet dans une scène 3D a fait l'objet de nombreux travaux dans le domaine de la vision par ordinateur, et les méthodes diffèrent principalement par leur capacité de généralisation (arrière-plan, extension à une catégorie inconnue d'objets), par l'utilisation d'un modèle pour l'objet d'intérêt (par exemple, modèles 3D, images d'entraînement des objets cibles) et par l'entrée requise au moment du test (par exemple, images RVB, cartes de profondeur, autres capteurs). En outre, nos travaux récents ont montré que, si les dimensions de l'objet sont connues, il est possible d'estimer précisément les coordonnées 3D de son centroïde dans la scène à partir d'une seule caméra [6]. Dans notre cas, nous allons développer une estimation de pose 6-D et éviter l'utilisation de modèles 3D ou de capteurs de profondeur. À cette fin, les derniers développements d'architectures d'apprentissage profond comme Transformers permettent d'apprendre un régresseur de pose à partir d'une seule image [7] et de tirer parti de l'information sur le regard obtenue à l'étape précédente pour initialiser l'estimation de la pose de l'objet à saisir.
Een collaboration avec INCIA équipe Hybride