Annonce

Les commentaires sont clos.

Stage M2 : MERLE - Multimodal Effective Representation Learning of Evolution of birds

26 Octobre 2022


Catégorie : Stagiaire


Le sujet de ce stage porte sur l'apprentissage de représentations (visuel) d'oiseaux pour étudier l'evolutions de différentes espéces et leur liens.

 

Contexte

Les oiseaux (plus de 10 000 espèces aujourd’hui) constituent la classe de Vertébrés Tétrapodes de loin la plus diversifiée. Ils figurent parmi les organismes les plus étudiés dans tous les domaines de la biologie. Des applications en IA de reconnaissance « automatique » se développent d’ailleurs pour aider à l’identification des espèces, sur critères d’apparence visuelle extérieure ou sur les vocalisations. Dans le même temps, des méthodes statistiques apparaissent pour modéliser l’apparence d’éléments du squelette d’ancêtres communs à des clades de vertébrés, à partir de morphologies actuelles et fossiles bien placées sur des arbres phylogénétiques maintenant bien robustes (ces arbres étant fondés sur la phylogénomique). Ces analyses morphologiques utilisent des landmarks et semi-landmarks (en nombre mais qui simplifient et fractionnent malgré tout la morphologie de façon arbitraire). Or, jusqu’ici rien n’a été tenté sur la modélisation d’ancêtres de clades entiers d’oiseaux en termes d’apparence visuelle extérieure (et encore moins acoustique). Cela comprend le plumage avec ses patterns et ses couleurs, et les parties nues, ainsi que la silhouette générale (au posé ou en vol) qui délimite l’oiseau. Pourtant cela serait d’un intérêt majeur en évolution. Proposer des reconstitutions d’apparences d’ancêtres de divers groupes (jusqu’à l’ancêtre commun de tous les oiseaux actuels) permettrait ensuite de reconstituer l’évolution le long de certaines lignées (jusqu’à l’actuel) de ces caractéristiques, le tempo de cette évolution, ses continuités et discontinuités, en parallèle avec l’évolution de paramètres extrinsèques (évolution du climat, de la paléogéographie etc. au cours du Cénozoïque), susceptibles d’avoir influé sur ces rythmes d’évolution, et intrinsèques (donnés ostéologiques, et aussi des paramètres simples tels que la masse corporelle, l’écologie générale des taxa). Des résultats inédits en termes d’évolution biologique compartimentée (modulaire) et également de réponse des organismes aux contraintes climatiques et environnementales pourront émerger dans le futur si ces expérimentations sont concluantes. Les plumages à l’intérieur d’un clade d’oiseaux peuvent être extrêmement diversifiés et disparates selon les espèces (couleurs, patterns), et de plus il est difficile de modéliser l’apparence totale d’oiseaux. De rares exemples récents d’études se sont bornés à capter les pourcentages de spectres de couleurs présents dans des dessins d’espèces d’oiseaux d’un groupe donné mais sans traduction des détails. Lorsque les détails de plumage sont pris en compte, c’est toujours jusqu’ici de façon discrétisée ; ainsi il peut y avoir plusieurs dizaines de paramètres définis de façon forcément arbitraire et traduisant l’apparence de façon fatalement incomplète et fragmentée. Le but du projet dans lequel s'inscrit le stage est de modéliser l’apparence globale mais précise d’espèces d’oiseaux en utilisant les propriétés d’algorithmes d'apprentissage profond de reconnaissance automatique visuelle. Les analyses seront réalisées en se basant sur des ensembles de dessins d’oiseaux tels qu’accessibles sur Birds of the World. Ces dessins de type « guide d’identification » ont plusieurs avantages : les oiseaux sont dépeints de façon très précise et réaliste, calibrée dans des poses comparables et homologues, sur fond neutre et identique (blanc ou pas) ; contrairement aux difficultés qui peuvent être rencontrées avec des photos. Ensuite, un but sera de tenter de reconstituer l’apparence d’ancêtres communs exclusifs à des ensembles données d’espèces actuelles, en utilisant les arbres phylogénétiques moléculaires disponibles pour tous les clades à tous les degrés de précision nécessaires. Plus spécifiquement, dans ce projet nous allons concevoir et mettre en œuvre des méthodes d'apprentissage avec des réseaux de neurones génératifs pour modéliser l'évolution des espèces d'oiseaux en se basant sur leur apparence.

 

Sujet

Le travail du stage consistera en la constitution d'une base d'apprentissage adaptée à l'apprentissage d'un tel modèle avec des images extraites de référentiels comme Birds of the World (dessins), le choix de codage et normalisation de ces données etc. en collaboration avec l'autre stagiaire sur le projet. L'objectif serait ensuite de concevoir un modèle qui apprend une représentation continue qui peut avoir un sens pour les experts du domaine (biologique, paléontologique etc.) en intégrant dans l'apprentissage des représentations des contraintes à la fois sur l'aspect temporel (évolution) et sur la proximité génétique (ancêtres communs etc.). Les pistes à explorer sont une régularisation par fonction de coût ou l'utilisation de méthodes contrastives (faiblement supervisées) apprenant une "métrique" de similarité en présentant des paires ou triplet d'oiseaux appartenant à la même espèce ou non. Une des questions étudiées sera de savoir comment représenter certaines discontinuités, les relations hiérarchiques et les propriétés topologiques dans ce "manifold" (variété géométrique) appris par le réseau de neurones pour explicitement intégrer certaines contraintes.

 

Profil

Les compétences suivantes sont indispensables:

  • master en intelligence artificielle / machine learning ou équivalent
  • bonne capacité de programmation (Python, Pytorch/Tensorflow)
  • autonomie
  • curiosité scientifique
  • esprit d'équipe

 

Durée

Le stage commencera en Février-Mars pour une durée de 5 mois. La date de début sera soumise aux contraintes administratives (environ 6-8 semaines de délai).

 

Gratification

3.9 €/h, 35h/semaine (i.e. environ 550€/mois)

 

Localisation

Laboratoires LGL et LIRIS, Lyon, France.

 

Encadrants

Mathieu Lefort: MCF au LIRIS (https://perso.liris.cnrs.fr/mathieu.lefort)

Stefan Duffner: MCF-HDR au LIRIS (http://duffner-net.de)

Antoine Louchart: CR CNRS au LGL (http://lgltpe.ens-lyon.fr/annuaire/louchart-antoine)

 

Candidature

Merci d'envoyer un CV, une lettre de motivation et les relevés de notes de l'année en cours et précédente à Mathieu Lefort mathieu.lefort@liris.cnrs.fr et Stefan Duffner stefan.duffner@liris.cnrs.fr