Annonce

Les commentaires sont clos.

Modèles génératifs pour l’émulation de données hyperspectrales d’observation de la Terre par satellite.

4 Janvier 2023


Catégorie : Stagiaire


 

 

Stage de recherche M2 en laboratoire 2023 : Modèles génératifs pour l’émulation de données hyperspectrales d’observation de la Terre par satellite.

Apprentissage statistique ; émulation ; modèles génératifs ; imagerie hyperspectrale.

Description du sujet :

La génération robuste de données à haute fidélité est une composante essentielle de l’analyse de grands jeux de données dans de nombreux domaines d’application (astrophysique, observation de la Terre, étude du climat, etc.), à la fois pour la création de catalogues de données synthétiques en prévision de futures observations et pour l’inférence de paramètres à partir d’observations. L’utilisation de données synthétiques associées à des variables physiques tient un rôle fondamental pour le développement, la préparation et la validation de missions d’observation astrophysiques, terrestres, ou autres. En effet, disposer de simulations d’observations en amont de la mission permet le développement d’algorithmes de traitement de données dédiés ainsi qu’une meilleure planification des campagnes d’observation. Lors de l’exploitation de la mission, la génération de données synthétiques peut également compléter un jeu de données réel mais incomplet afin d’éviter le coût d’une nouvelle campagne d’observation. D’autre part, bien que la modélisation de phénomènes physiques non linéaires comme la dynamique des océans ou la dynamique météorologique puisse s’avérer très précise, elle ne peut être exprimée analytiquement et requiert généralement des simulations numériques très coûteuses. Leur application lors de la résolution de problèmes inverses statistiques classiques pour l’inférence de paramètres comme l’algorithme Metropolis-Hastings Markov Chain Monte Carlo (MCMC) est alors prohibée puisque ces algorithmes d’inférence bayésienne reposent sur des centaines de milliers d’évaluations de modèles directs afin d’estimer les probabilités postérieures des paramètres du modèle. Il est alors critique de bénéficier d’une manière de générer des données à moindre coût et rapidement. Avec le développement récent d’algorithmes d’apprentissage automatique, des émulateurs rapides utilisant des techniques d’apprentissage profond comme les modèles génératifs sont apparus pour permettre des prédictions de haute précision [1–3]. Un émulateur a pour principe d’approximer un simulateur original en utilisant un modèle statistique. Un émulateur est donc un modèle d’apprentissage statistique visant à imiter le comportement d’un simulateur physique, pour un coût computationnel très réduit. Les paramètres du modèle sont alors appris à partir d’un nombre limité de simulations choisies judicieusement, par exemple à l’aide d’une schéma d’échantillonnage optimal des paramètres physiques d’entrée.

La combinaison de l’imagerie et de la spectroscopie est devenue très populaire durant les deux dernières dé- cénies, donnant naissance à un nouveau paradigme appelé imagerie hyperspectrale. Les images hyperspectrales, représentées par un cube de données, fournissent une description complète de la scène observée dans les deux dimensions spatiales et en longueur d’onde (dimension spectrale). Elles trouvent alors leurs applications dans de nombreux domaines, e.g. l’astrophysique, la planétologie, la surveillance agricole ou le contrôle qualité. L’applica- tion visée dans ces travaux est l’observation de la Terre par satellite, autrement appelée télédétection. Les satellites hyperspectraux actuellement en orbite, comme EO-1-Hyperion, EnMap ou encore Sentinel-3, sont peu nombreux et coûteux à utiliser pour l’utilisateur ou pour l’agence spatiale qui gère les instruments. Pour les raisons développées plus haut, quelques simulateurs d’observations satellitaires hyperspectrales sont apparues dans la littérature [4,5] et modélisent l’entièreté du processus physique d’acquisition des données, tenant compte des spécificités instrumen- tales et/ou de paramètres physiques liés à l’observation. Une telle modélisation peut s’avérer très coûteuse en temps de calcul. À notre connaissance, ces simulateurs ne sont pas en libre accès et leur utilisation nécessite une maîtrise importante de techniques de programmation. L’étendue de leurs applications potentielles est pourtant grande et quelques études pratiques le démontrent [6,7]. L’utilisation de modèles génératifs d’apprentissage profond tels que les réseaux antagonistes génératifs (GANs) ou les autoencodeurs variationnels (VAEs) pour le traitement d’images hyperspectrales d’observation de la Terre est de plus en plus fréquent. Cependant, ces modèles sont utilisés à des fins autres que la génération d’images synthétiques : fusion de données [8], super-résolution, classification, etc. Ces applications diverses de ces modèles génératifs montrent qu’ils sont particulièrement adaptés pour le traitement d’images hyperspectrales. Il existe aujourd’hui dans la littérature en observation de la Terre, des émulateurs ba- sés sur des modèles génératifs d’apprentissage profond pour la génération rapide de spectres uniquement [3]. Ces études démontrent la meilleure précision de tels émulateurs pour la génération de spectres en comparaison avec des techniques classiques d’interpolation et soulignent la possibilité et l’intérêt de développer des simulateurs d’images hyperspectrales. Aucun émulateur hyperspectral ne nous est connu à ce jour dans la littérature en traitement d’images.

Ce stage a pour but de développer un émulateur, construit à partir de modèles génératifs issus de l’apprentissage automatique, de données hyperspectrales d’observation de la Terre en télédétection afin de fournir une première preuve de concept de cette tâche. Cet émulateur sera entraîné à partir de données issues du simulateur générique de systèmes hyperspectraux de télédétection SENSOR (Software Environment for the Simulation of Optical Remote sensing systems) [4] qui nous est fourni en collaboration avec Anko Börner, chercheur au Centre allemand pour l’aéronautique et l’astronautique (DLR). Un accent particulier sera mis sur la validation méticuleuse des modèles génératifs développés.

Le stage se déroulera de la manière suivante et aura les objectifs suivants :

  1. La première étape consistera en la prise en main du logiciel de simulation SENSOR avec l’appui technique de son créateur : Anko Börner.
  2. La seconde étape sera la génération d’une base de données d’apprentissage à partir d’un mélange de spectres purs et d’abondances et d’un échantillonnage optimal de paramètres physiques nécessaires au fonctionnement du simulateur.
  3. L’étape suivante, centrale dans le déroulement du stage, sera le développement d’un modèle génératif d’ap- prentissage profond à générer des images issus de la base d’apprentissage de l’étape (2). Le modèle ainsi entraîné sera validé scrupuleusement à l’aide d’abord de métriques de premier ordre, puis en utilisant des algorithmes de séparation de source et de calcul de paramètres physiques.
  4. Si le temps le permet, la quatrième étape de ces travaux portera sur l’étude et l’interprétation de l’espace latent du modèle génératif entraîné afin de construire un émulateur permettant d’imiter intégralement le simulateur SENSOR à partir des paramètres physiques d’entrée. Une autre étape de validation sera effectuée.

Le stage pourra être poursuivi par la préparation d’une thèse (sous réserve d’obtention d’un financement : ce point sera défini durant le stage).

Encadement :

Le stage aura lieu dans la nouvelle antenne de Longuenesse du LISIC, dédiée actuellement à l’imagerie hyperspec- trale. Cette antenne, créée récemment, compte actuellement 6 chercheurs permanents, 1 ingénieur de recherche et 3 doctorants. Le ou la stagaire sera encadré(e) par Claire Guilloteau, Matthieu Puigt et Gilles Roussel qui apporteront leur expertise respective en traitement des images MS/HS et en machine learning (deep learning, modèles génératifs) pour l’imagerie satellitaire.

Candidater :

Issu(e) d’une filière scientifique en sciences de données (traitement du signal et des images, informatique avec une dominante en intelligence artificielle/apprentissage/machine learning, mathématiques appliquées), vous êtes curieux(se) et très à l’aise en programmation (Matlab, Python, C). Vous lisez et parlez avec aisance l’anglais courant. Bien que non-obligatoire, une première expérience en factorisation de données (décomposition de matrices ou tenseurs, séparation de sources, apprentissage de dictionnaire, etc) ou en deep learning sera appréciée.

Pour candidater, merci d’envoyer un courriel à (claire.guilloteau, matthieu.puigt, gilles.roussel) [at] univ-littoral.fr en y annexant les documents pouvant supporter votre candidature :

  • votre CV,
  • une lettre de motivation,
  • vos relevés de note sde Licence3, Master1, Master2 (si ces derniers sont disponibles) ou d’Ecole d’Ingénieurs (première à troisième année),
  • deux lettres de recommandation ou les noms et moyens de contact de deux référents académiques.

Références :

[1] Mustafa Mustafa, Deborah Bard, Wahid Bhimji, Zarija Lukić, Rami Al-Rfou, and Jan M. Kratochvil. CosmoGAN : creating high-fidelity weak lensing convergence maps using Generative Adversarial Networks. Computational Astrophysics and Cosmology, 6(1) :1, May 2019.

[2] ClaireGuilloteau,NesarRamachandra,FrançoisLanusse,SultanHassan,Yuan-SenTing,MarcHuertas-Company,Sunny Cheng, Brant Robertson, Alexie Leauthaud, and Song Huang. Generative networks for emulating synthetic sky images. Technical report, Kavli Summer Programm in Astrophysics, 2019.

[3] Jochem Verrelst, Juan Rivera Caicedo, Jorge Vicent, Pablo Morcillo Pallarés, and José Moreno. Approximating Empirical Surface Reflectance Data through Emulation : Opportunities for Synthetic Scene Generation. Remote Sensing, 11(2) :157, January 2019.

[4] Anko Börner, Lorenz Wiest, Peter Keller, Ralf Reulke, Rolf Richter, Michael Schaepman, and Daniel Schläpfer. Sensor : a tool for the simulation of hyperspectral remote sensing systems. ISPRS Journal of Photogrammetry and Remote Sensing, 55(5) :299–312, 2001.

[5] Karl Segl, Luis Guanter, Ferran Gascon, Theres Kuester, Christian Rogass, and Christian Mielke. S2etes : An end-to-end modeling tool for the simulation of sentinel-2 image products. IEEE Transactions on Geoscience and Remote Sensing, 53(10) :5560–5571, 2015.

[6] Asa Gholizadeh, Jan Mišurec, Veronika Kopačková, Christian Mielke, and Christian Rogass. Assessment of red-edge position extraction techniques : A case study for norway spruce forests using hymap and simulated sentinel-2 data. Forests, 7(10) :226, 2016.

[7] Naoto Yokoya, Jonathan Cheung-Wai Chan, and Karl Segl. Potential of resolution-enhanced hyperspectral data for mineral mapping using simulated enmap and sentinel-2 images. Remote Sensing, 8(3) :172, 2016.

[8] A. Hadir, A. Alboody, M. Puigt, G. Roussel, V. Vantrepotte, C. Jamet, and T. K. Tran. S2S3-STFGAN : a GAN-based spatio-temporal fusion method for Sentinel-2 and Sentinel-3 data. soumis.