Annonce
PhD position at CEA: Semantic aware dynamic SLAM for embedded systems
7 Mars 2023
Catégorie : Doctorant
Poste de doctorant au CEA sur le SLAM sémantique en temps réel pour les environnements dynamiques
Contexte technique et scientifique
La localisation est le rôle clé pour plusieurs systèmes tels que les voitures autonomes, les robots mobiles, les appareils AR/VR. Pour cela, la méthode visuelle Simultaneous Localization And Mapping (SLAM) est employée pour la navigation et la compréhension de l’environnement proche sans connaissance préalable. Le SLAM utilise une séquence d’images capturée par la caméra et la centrale inertielle (IMU) pour construire la carte de l’environnement ambiant et estimer la localisation de la caméra. De nombreuses méthodes de localisation ont été développées avec d’excellentes performances, telles que ORB-SLAM3, VINS Fusion ou Kimera. Plusieurs problématiques restent toujours non résolues. D’un côté, la plupart des algorithmes SLAM de l’état de l’art exploitent les images sous l’hypothèse que les éléments de la scène sont statiques. D’un autre côté, les données obtenues ne contiennent pas l’information sémantique avancée. Gérer les objets en déplacement dans les scènes dynamiques est crucial pour assurer une meilleure compréhension et robustesse de localisation pour les robots mobiles. Ces dernières années, les méthodes d’apprentissage profond ont fourni de nouveaux algorithmes pour résoudre ce problème. Ils donnent la compréhension de la scène au système avec la classification des objets pertinents. Cependant, l’intégration d’algorithmes avancés d’intelligence artificielle est coûteux en mémoire, en calcul et en consommation d’énergie. L’intégration de la localisation et la segmentation sémantique simultanément est un défi pour les systèmes avec des ressources disponibles restreintes.
Description du Sujet
Les SLAM traditionnels sont sensibles à l’influence des objets mobiles ce qui engendre des manques de correspondances entre les images. Cela dégrade fortement la robustesse et la précision du système. Le bruit des objets dynamiques contamine également la reconstruction 3D de l’environnement. La segmentation sémantique aide à comprendre notre environnement complexe efficacement en générant par pixel un masque d’objets sémantique dans les images (piéton, voiture, route, …). Il y a une relation complémentaire entre le SLAM et la sémantique. Le SLAM ajoute l’information géométrique spatial à la perception sémantique. Celle ci aide le SLAM à comprendre la scène à plus haut niveau et atténue l’impact des objets dynamiques. Dans ce sens, les récentes méthodes de SLAM sémantique combinent les approches classiques d’estimation basées sur la géométrie avec la segmentation sémantique basée apprentissage profond pour fournir une localisation et reconstruction précise et robuste. A quel coût ? L’intégration d’un tel algorithme dans le SLAM ajoute plus de besoins en ressource mémoire, calcul et augmente la consommation d’énergie. Les ressources de calcul toujours plus importantes exigées par le SLAM empêchent son application aux dispositifs mobiles à ressources limitées.
La littérature récente montre plusieurs techniques pour combiner les deux chaînes de traitement pour obtenir le SLAM hybride, telles que RDS-SLAM, FCH-SLAM, SOLO-SLAM, WF-SLAM, RDMO-SLAM, DS-SLAM, Dyna-SLAM, SOF-SLAM ou SDF-SLAM qui gère les environnements dynamiques. Ces papiers sont principalement concentrés sur la précision et la robustesse du SLAM avec la sémantique. De plus, les méthodes listées de SLAM sémantique sont développées pour PC avec beaucoup de ressources disponibles. Obtenir un SLAM sémantique sur du matériel embarqué est toujours un défi en raison de la charge de calcul importante. Seulement quelques travaux proposent une implémentation sur système embarqué. Plusieurs questions restent sans réponse dans ce contexte. Quel est le compromis entre l’utilisation des ressources matérielles et la précision de localisation? Quelle est la précision requise de la sémantique pour le SLAM ? Comment intégrer efficacement la sémantique dans le SLAM afin de réduire le nombre d’opérations, la consommation d’énergie et la latence introduit par les transmissions de données redondantes ? Cette thèse vise un SLAM visuel amélioré par le module de segmentation sémantique fonctionnel sous contraintes embarquées. On adresse les besoins ci-dessus et le design de l’architecture pour avoir une fusion profonde du SLAM et de la segmentation sémantique. On s’attend à ce que le SLAM sémantique léger traite les objets dynamiques et atteigne simultanément la précision et l’exécution tempsréel sur du matériel aux ressources restreintes.
La chaîne de traitement SLAM établie au laboratoire sera utilisée comme point de départ pour cette thèse. Lors des trvaux précedants, nous avons minimisé le nombre d’opération effectué par les fonctions de perception avec des méthodes de réduction de données intelligentes. Les travaux de cette thèse seront valorisés à travers la rédaction de publications scientifiques dans des conférences et des journaux, ainsi que potentiellement des brevets.