Actions spécifiques
Afin de répondre aux grands enjeux scientifiques du thème T, des actions spécifiques seront menées autour des thématiques suivantes.
Action « Apprentissage des représentations, Deep learning »
Animateurs : Christian Wolf (MCF HDR, LIRIS, Lyon), Nicolas Thome (PR, CNAM, Paris)
L’objectif de l’apprentissage de représentations (surtout connu par son anglicisme Deep Learning) est l’apprentissage automatique, à partir de données diverses, de modèles hiérarchiques et basés sur des nivaux d’abstractions. Contrairement aux modèles classiques, les caractéristiques/représentations sont apprises à partir de données et non pas conçues manuellement à partir de connaissances de métiers. L’apprentissage à partir de grandes masses de données étiquetées est actuellement la norme. Diminuer la dépendance des données est un enjeu essentiel. Entre autres, cette action s’intéresse aux verrous scientifiques suivants:
- Les divers formalismes de l’apprentissage sont au coeur de cette action: apprentissage supervisé, non supervisé, semi-supervisé, faiblement supervisé. L’enjeu principal consiste à diminuer la dépendance des masses de données annotées, l’annotation par des experts humains étant considérée comme difficile et chronophage. Dans les situations où les performances obtenues dépassent les performances humaines, l’annotation par les humains est impossible. Si pour certaines applications, les annotations peuvent être obtenues à partir de sources alternatives, comme cela est le cas pour la lecture labiale ou pour l’estimation de l’âge d’une personne, pour d’autres applications cela s’avère difficile. Le défi phare consiste à apprendre, de manière entièrement non supervisée, des représentations uniques et riches, permettant de répondre à des tâches multiples et diverses de la vie quotidienne (reconnaissance visuelle, prédictions, etc.). Similaire à l’apprentissage humain, effectué en grande majorité de manière non supervisé, il s’agit de découvrir les régularités qui gouvernent notre monde physique pour apprendre des abstractions utiles pour le raisonnement.
- L’apprentissage contemporain est étroitement lié aux données massives, ce qui soulève la question de leur acquisition. La création de données synthétiques, souvent par simulation, permet de répondre à ce problème dans certains cas. Dans ce contexte, la notion de transfert de connaissances, supervisé ou non-supervisé, joue un rôle important (transferts entre distributions de données sources et cibles, entre modèles, entre tâches, entre applications, etc).
- Cette action considère également les modèles permettant d’apprendre des sorties structurées et les modèles génératifs permettant de générer du contenu (GAN, VAE, Pixel CNN et Pixel RNN, etc.). Le contenu prédit peut servir à des applications diverses telles que le graphisme (cinéma, jeux vidéos), la modification automatique et créative du contenu, la prédiction automatique du « futur » dans une vidéo, etc. L’espace de sortie étant de très grande dimension, les verrous scientifiques sont multiples : manque de stabilité des problèmes d’optimisation sous-jacents (estimation de l’équilibre de Nash des GAN), démélange des représentations/estimation et identification des variables latentes pertinentes pour l’application.
- L’action s’intéresse aux incertitudes des systèmes d’apprentissage et à la conception de modèles tractables permettant d’obtenir des mesures de confiance sur les prédictions données, par exemple les formalismes bayésiens. Les enjeux sont forts dans certains contextes applicatifs tels que l’imagerie médicale et la conduite autonome. Nous étudierons également l’explicabilité des modèles issus de l’apprentissage.
Cette action interagira fortement avec les autres actions du Thème T et des autres thèmes.
Action « Vision, robotique et apprentissage » – Co-animation ISIS/Robotique
Animateurs : David Filiat (PU, ENSTA ParisTech), Christian Wolf (MCF HDR, LIRIS, Lyon)
La vision par ordinateur et la robotique partagent un passé commun qui remonte à la naissance de ces deux domaines. En effet, parmi l’ensemble des capteurs dont peut disposer un robot moderne, la vision peut répondre aux exigences liées à un grand nombre de problèmes applicatifs, par exemple en navigation, en manipulation ou dans les cas où la présence d’humains est un facteur important. Les tendances actuelles montrent que les liens entre les deux domaines se resserrent pour plusieurs raisons: (i) d’un point de vue méthodologique, l’émergence de l’apprentissage profond a permis de faire des liens nouveaux entre la perception et le contrôle (Deep Reinforcement Learning par exemple), et (ii) d’un point de vue applicatif, la maturation de certaines thématiques telles que les véhicules autonomes et les UAV, gourmandes en technologies de perception, renforce les liens avec la vision.
Cette action sera co-animée par les GdRs Robotique et ISIS. Elle s’intéressera aux aspects liant la robotique, l’image et le signal, et l’apprentissage automatique. Un accent particulier est mis sur les boucles perception/action, notamment sur la modélisation par MDP/POMDP et l’apprentissage par renforcement (profond). Elle couvre un champ divers d’applications autour de la robotique humanoïde, mobile, industrielle, des véhicules autonomes ou des drones. Parmi les thèmes abordés, nous proposons par exemple :
- Apprentissage de stratégies de navigation (en lien avec la perception)
- Apprentissage conjoint de tâches de navigation et de reconnaissance visuelle
- Interactions humains-robots
- Navigation sociale de robots mobiles par perception
- Traitement de signaux sociaux
- UAV et robots terrestres mobiles : perception, coordination
- Perception et apprentissage pour la cobotique
- Manipulation et saisie : contrôle par perception et apprentissage
Action « Modélisation et optimisation à l’interface signal/apprentissage » (action transverse A+T)
Animateurs : Valentin Emiya (MCF, LIF, Marseille), Caroline Chaux (CR CNRS, I2M, Marseille), Konstantin Usevich (CR CNRS, CRAN, Nancy)
Cette action, commune avec le Thème A, consiste à encourager les rapprochements et discussions entre les communautés de l’apprentissage automatique et du traitement du signal. Ces deux disciplines partagent en effet nombre de fondamentaux, dont des modèles et méthodes d’optimisation. Une description détaillée de l’action est donnée ici.
Le Thème T structurera en particulier l’organisation des journées autour des thématiques suivantes :
- Optimisation en signal et en apprentissage. Le traitement du signal et l’apprentissage se rejoignent sur de nombreux problèmes et méthodes d’optimisation : optimisation convexe, optimisation non convexe, modèles parcimonieux, optimisation en grande dimension, factorisation de tenseurs.
- Compréhension des réseaux profond. Comme mentionné dans les perspectives du Thème T, la compréhension théorique des mécanismes d’apprentissage mis en œuvre dans les réseaux profonds est aujourd’hui limitée. Afin de guider cette analyse formelle, des outils à la convergence des méthodes de traitement du signal et d’apprentissage statistique seront explorées. On peut mentionner par exemple l’analyse harmonique pour les notions de stabilité (scattering), la convergence entre les modèles bayésiens et les techniques de régularisation structurelle pour modéliser l’incertitude de décision, ou encore l’utilisation de méthodes de la théorie de l’information pour analyser les performances de généralisation des modèles.
- Convolution sur grilles non régulières. L’opérateur de convolution est un élément essentiel dans le succès spectaculaire obtenu par les réseaux profond pour la reconnaissance de données de type signaux pauvres en sémantique comme les images ou les sons. Nous étudierons la manière de définir et d’adapter ces opérateurs de convolution pour traiter des grilles définies par des graphes d’adjacence non réguliers (e.g., réseaux de capteurs, données 3D).
Action « Vision 3D, géométrie et apprentissage » (action transverse B+T)
Animateurs : Vincent Lepetit (PU, LABRI, Bordeaux), Adrien Bartoli (PU, Institut Pascal, Clermont-Ferrand)
Cette action Vision 3D et Apprentissage s’intéressera à la reconstruction 3D d’un objet ou d’une scène rigide ou déformable (SfM, NRSfM – MVS), au recalage d’images multimodales (RGB, RGB-D, depth), au calcul de pose d’un objet ou d’une scène rigide ou déformable (pose, SfT) à partir de modèles texturés ou non-texturés.
Complémentaires aux approches classiques basées sur la géométrie (voir la description de cette action transverse dans le Thème B), aujourd’hui les méthodes d’apprentissage profond peuvent également être développées en vision 3D et font l’objet de nombreux travaux. A l’heure actuelle, les algorithmes sont capables de prédire d’importantes quantités de cartes de profondeur et de normales à partir d’une seule image. Il est aujourd’hui intéressant d’utiliser ces données pour généraliser les approches sur des données temporelles. De la même manière, l’étude du concept du self-learning, où l’apprentissage est effectué grâce à une tâche secondaire différente de la tâche primaire de reconstruction 3D, peut être fort utile dans le cas où les données d’apprentissage ne sont pas disponibles. Enfin, les algorithmes de SLAM récents se concentrent sur l’association d’un label sémantique sur chaque objet tout en reconstruisant la scène de manière automatique. Ce sujet de recherche récent et prometteur alliant reconstruction 3D et reconnaissance d’objet sera également étudié ici. Ainsi, dans cette action, il s’agit d’étudier les techniques géométriques de vision 3D en tenant compte de la spécificité des données (multi-modales, dynamiques, déformables) et d’utiliser, dans une certaine mesure, les méthodes d’apprentissage en vision 3D de manière conjointe à la géométrie.
Action « Visages, gestes, activités et comportements » (action transverse B+T)
Animateurs : Catherine Achard (MCF, ISIR, Paris), Olivier Alata (PU, LHC, St. Etienne), Christophe Ducottet (PR, LHC, St. Etienne)
Cette action concerne l’extraction du mouvement humain (visage, mains, corps, gestes) à partir de séquences vidéo, et son analyse à plus haut niveau (tâches, comportement), notamment pour des applications interactives ou de surveillance. Une attention particulière sera portée aux données hétérogènes (couleur, thermique, 3D, etc.) et/ou acquises dans des situations non contraintes.
Elle s’intéressera notamment à la prédiction de posture 2D ou 3D de la main ou du corps avec des approches utilisant l’apprentissage profond, à la modélisation statistique de gestes, à la modélisation du visage (forme, apparence, émotion), et à la reconnaissance d’activités et de comportements. Des journées thématiques seront éventuellement co-organisées avec le GdR Robotique sur ces sujets.