Annonce

Les commentaires sont clos.

Stage M2 LIRIS-LGL - Apprentissage de représentations multi-modales

20 December 2021


Catégorie : Stagiaire


MERLE – Multimodal Effective Representation Learning of Evolution of birds

 

Sujet

Les oiseaux (plus de 10 000 espèces aujourd'hui) constituent la classe de Vertébrés Tétrapodes de loin la plus diversiée. Ils gurent parmi les organismes les plus étudiés dans tous les domaines de la biologie. Des applications en IA de reconnaissance automatique  se développent d'ailleurs pour aider à l'identication des espèces, sur critères d'apparence visuelle extérieure ou sur les vocalisations. Dans le même temps, des méthodes statistiques apparaissent pour modéliser l'apparence d'éléments du squelette d'ancêtres communs à des clades de vertébrés, à partir de morphologies actuelles et fossiles bien placées sur des arbres phylogénétiques maintenant bien robustes (ces arbres étant fondés sur la phylogénomique). Ces analyses morphologiques utilisent des landmarks et semi-landmarks (en nombre mais qui simplient et fractionnent malgré tout la morphologie de façon arbitraire). Or, jusqu'ici rien n'a été tenté sur la modélisation d'ancêtres de clades entiers d'oiseaux en termes d'apparence visuelle extérieure (et encore moins acoustique). Cela comprend le plumage avec ses patterns et ses couleurs, et les parties nues, ainsi que la silhouette générale (au posé ou en vol) qui délimite l'oiseau. Pourtant cela serait d'un intérêt majeur en évolution. Proposer des reconstitutions d'apparences d'ancêtres de divers groupes (jusqu'à l'ancêtre commun de tous les oiseaux actuels) permettrait ensuite de reconstituer l'évolution le long de certaines lignées (jusqu'à l'actuel) de ces caractéristiques, le tempo de cette évolution, ses continuités et discontinuités, en parallèle avec l'évolution de paramètres extrinsèques (évolution du climat, de la paléogéographie etc. au cours du Cénozoïque), susceptibles d'avoir inué sur ces rythmes d'évolution, et intrinsèques (donnés ostéologiques, et aussi des paramètres simples tels que la masse corporelle, l'écologie générale des taxa). Des résultats inédits en termes d'évolution biologique compartimentée (modulaire) et également de réponse des organismes aux contraintes climatiques et environnementales pourront émerger dans le futur si ces expérimentations sont concluantes. Les plumages à l'intérieur d'un clade d'oiseaux peuvent être extrêmement diversiés et disparates selon les espèces (couleurs, patterns), et de plus il est dicile de modéliser l'apparence totale d'oiseaux.

De rares exemples récents d'études se sont bornés à capter les pourcentages de spectres de couleurs présents dans des dessins d'espèces d'oiseaux d'un groupe donné (e.g. [9]) mais sans traduction des détails. Lorsque les détails de plumage sont pris en compte, c'est toujours jusqu'ici de façon discrétisée ; ainsi il peut y avoir plusieurs dizaines de paramètres dénis de façon forcément arbitraire et traduisant l'apparence de façon fatalement incomplète et fragmentée. Le but du projet dans lequel s'inscrit le stage est de modéliser l'apparence globale mais précise d'espèces d'oiseaux en utilisant les propriétés d'algorithmes d'apprentissage profond de reconnaissance automatique visuelle. Les analyses seront réalisées en se basant sur des ensembles de dessins d'oiseaux tels qu'accessibles sur Birds of the World. Ces dessins de type guide d'identication  ont plusieurs avantages : les oiseaux sont dépeints de façon très précise et réaliste, calibrée dans des poses comparables et homologues, sur fond neutre et identique (blanc ou pas) ; contrairement aux dicultés qui peuvent être rencontrées avec des photos. Ensuite, un but sera de tenter de reconstituer l'apparence d'ancêtres communs exclusifs à des ensembles données d'espèces actuelles, en utilisant les arbres phylogénétiques moléculaires disponibles pour tous les clades à tous les degrés de précision nécessaires. Plus spéciquement, dans ce projet nous allons concevoir et mettre en oeuvre des méthodes d'apprentissage avec des réseaux de neurones génératifs pour modéliser l'évolution des espèces d'oiseaux en se basant sur leur apparence.

Le travail du stage consisterait en la constitution d'une base d'apprentissage adaptée à l'apprentissage d'un tel modèle avec des images extraites de référentiels comme Birds of the World (dessins), le choix de codage et normalisation de ces données etc., ainsi que l'architecture du modèle, l'algorithme d'apprentissage et la fonction à optimiser. Il existe deux grandes familles de modèles de réseaux de neurones génératifs pour des données en grande dimension, les auto-encodeurs variationnels (Variational Auto-Encoder, VAE) et les GAN (Generative Adversarial Networks).

Nous allons nous concentrer sur la première, car ces modèles sont généralement plus faciles à entraîner, et il est plus simple d'intégrer des contraintes externes et d'inuencer la "forme" de l'espace latent, par exemple, en le démêlant (disentanglement) [6]. L'objectif serait alors d'utiliser un VAE convolutif pour apprendre une représentation plus compacte des images, et ensuite d'utiliser cette représentation latente en entrée des modèles existants utilisés par des biologistes (avec lesquels M. Louchart collabore déjà) basés sur l'optimisation sous contraintes par des connaissances du métier (phylogénétiques).


Profil
Les compétences suivantes sont indispensables :
- master en intelligence articielle / machine learning ou équivalent
- bonne capacité de programmation (Python, Pytorch/Tensorow)
- autonomie
- curiosité scientique


Durée
Le stage commencera en Février-Mars pour une durée de 5 mois. La date de début sera soumise aux contraintes administratives (environ 6-8 semaines de délai).


Gratication
3.9€/h, 35h/semaine (i.e. environ 550€/mois)

Localisation
Laboratoires LGL et LIRIS, Lyon, France.

Encadrants
 Mathieu Lefort : MCF au LIRIS (https://perso.liris.cnrs.fr/mathieu.lefort/)
 Stefan Duner : MCF-HDR au LIRIS (http://duffner-net.de)
 Antoine Louchart : CR CNRS au LGL (http://lgltpe.ens-lyon.fr/annuaire/louchart-antoine)

Candidature
Merci d'envoyer un CV, une lettre de motivation et les relevés de notes de l'année en cours et précédente à Mathieu Lefort (mathieu.lefort@liris.cnrs.fr) et Stefan Duffner (stefan.duner@liris.cnrs.fr).