Annonce

Les commentaires sont clos.

Offre de stage M2 - Exploration des prédictions conformes pour l'apprentissage actif

7 Novembre 2023


Catégorie : Stagiaire


Le but de ce stage est d’explorer le potentiel d’utilisation de la prédiction conforme comme méthode d’échantillonnage par incertitude pour l’apprentissage actif profond, un sujet rarement étudié jusqu’ici [9, 10]. La travail de recherche se fera sur des données acquises dans un contexte agro-environnemental et à la lumière des travaux déjà développés chez EXXACT Robotics [8, 11].

En fonction de vos préférences, vous pouvez choisir d’être accueilli au Laboratoire IMS à Bordeaux (33) ou EXXACT Robotics à Lyon (69). Des visites dans les deux sens sont envisageables ainsi qu'au siège social d’EXXACT à Epernay (51).

La durée du stage est de 6 mois avec un salaire brut de 1300 euros.

 

Description

L’apprentissage actif, en anglais active learning [1], une sous-discipline du machine learning, s'intéresse au problème de l’usage efficace des données annotées. Dans le paradigme de l’apprentissage supervisé classique, les modèles sont “appris” sur des bases de données amples d’observations annotées. Malheureusement, la procédure d’annotation est souvent coûteuse, chronophage et requiert une expertise profonde dans le domaine d’application. L’apprentissage actif peut contribuer à atténuer ce problème. Au lieu de sélectionner aléatoirement des objets pour l’annotation, comme on le fait classiquement, l’apprentissage actif choisit les objets les plus informatifs pour les présenter aux experts pour l’annotation. Cette sélection est basée sur l’idée que certains points, une fois annotés, auront une plus grande valeur ajoutée à la procédure d’apprentissage que d’autres. En se concentrant sur ces points, l’apprentissage actif pourrait potentiellement contribuer à la réduction du nombre de données annotées requises et accélérer la procédure d’apprentissage [2].
Le choix des observations les plus informatives peut se faire en se basant sur différents critères [3]. L’échantillonnage par incertitude est une approche couramment utilisée dans l’apprentissage actif. Son but est d’identifier les objets au sujet desquels le modèle est le plus incertain et les présenter à l’annotation. L’idée est que ces objets sont supposés être les plus “difficiles” pour le modèle (d’où sa haute incertitude à leur sujet), et par conséquent les annoter et les ajouter au pool d’apprentissage contribuera positivement à l’entraînement. L’échantillonnage par incertitude a besoin d’une méthode d’estimation d’incertitude du modèle vis-à-vis des données. Pour les réseaux de neurones, ceci a été souvent fait jusqu’à présent par des approches bayésiennes par Monte Carlo dropout [4, 5].
La prédiction conforme [6] est une méthode de quantification et de contrôle de l’incertitude de n’importe quel estimateur ponctuel, comme un réseau de neurones. En transformant l’estimateur ponctuel en un estimateur d’intervalle (par exemple, un ensemble de classes en classification) avec des garanties statistiques sur l’inclusion de la vraie valeur, la prédiction conforme permet de quantifier l’incertitude du prédicteur en étudiant la taille et la composition des ensembles produits [7, 8]. Étant une approche non-paramétrique avec des hypothèses minimales sur les données, cette méthodologie peut, et a été, appliquée sur une grande variété de modèles et de configurations de données.
 
Le but de ce stage est d’explorer le potentiel d’utilisation de la prédiction conforme comme méthode d’échantillonnage par incertitude pour l’apprentissage actif profond, un sujet rarement étudié jusqu’ici [9, 10]. La travail de recherche se fera sur des données acquises dans un contexte agro-environnemental et à la lumière des travaux déjà développés chez EXXACT Robotics [8, 11].
 
 
Réferences

[1] Cohn, D.A., Ghahramani, Z. & Jordan, M.I. (1996). Active Learning with Statistical Models, Journal of Artificial Intelligence Research (JAIR), 4. DOI: 10.1613/jair.295.

[2] Settles, B. (2012). Active Learning, Synthesis Lectures on Artificial Intelligence and Machine Learning (Cham, Switzerland: Springer), ISBN: 978-3-031-01560-1.

[3] Ren, P. et al. (2021). A Survey of Deep Active Learning, ACM Computing Surveys, 54(9). https://arxiv.org/abs/2009.00236.

[4] Gal, Y., Islam, R. & Ghahramani, Z. (2017). Deep Bayesian Active Learning with Image Data, Proceedings of the 34th International Conference on Machine Learning (ICML), 7.

[5] Kirsch, A., van Amersfoort, J. & Gal, Y. (2019). BatchBALD: Efficient and Diverse Batch Acquisition for Deep Bayesian Active Learning, Advances in Neural Information Processing Systems (NeurIPS), 32.

[6] Shafer, G. & Vovk, V. (2008). A Tutorial on Conformal Prediction, Journal of Machine Learning Research(JMLR), 9(12), 371-421.

[7] Angelopoulos, A. & Bates, S. (2023). Conformal Prediction: A Gentle Introduction, Foundations and Trends in Machine Learning, 16(4), 494-591. DOI: 10.1561/2200000101.

[8] Melki, P., Bombrun, L., Diallo, B., Dias, J. & Da Costa, J-P. (2023). Group-Conditional Conformal Prediction via Quantile Regression Calibration for Crop and Weed Classification, Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 614-623.

[9] Corrigan, A.M., Hopcroft, P., Narvaez, A.J. & Bendtsen, C. (2020). Batch Mode Active Learning for Mitotic Phenotypes Using Conformal Prediction, Proceedings of Machine Learning Research (PMLR): Conformal and Probabilistic Prediction and Applications, 128,1-15.

[10] Matiz, S. & Barner, K.E. (2019). Inductive Conformal Predictor for Convolutional Neural Networks: Applications to Active Learning for Image Classification, Pattern Recognition, 90, 172-182. DOI: 10.1016/j.patcog.2019.01.035.

[11] Blok, P. et al. (2022). Active Learning with MaskAL Reduces Annotation Effort for Training Mask R-CNN on a Broccoli Dataset with Visually Similar Classes, Computers and Electronics in Agriculture, 197. DOI: 10.1016/j.compag.2022.106917.

 
Profil du candidat
  • Beaucoup (mais beaucoup !) de motivation pour la recherche et l’exploration dans le domaine du machine learning,
  • Des bonnes compétences d’organisation et de la rigueur dans le travail, accompagnées d’une vision positive et potentiellement un grand sourire,
  • Etudiant(e) en dernière année de Master (M2 ou Ecole d’ingénieurs) en machine learning, vision par ordinateur, statistiques, mathématiques appliquées ou domaines liés,
  • Des fondements solides en statistiques, machine learning et potentiellement la vision par ordinateur. Si vous avez travaillé sur d’autres tâches de ML, n’hésitez pas à postuler – le knowledge transfer fonctionne pas mal !
  • Des compétences bonnes à exceptionnelles en Python, et au moins quelques connaissances et expériences avec les bibliothèques principales en deep learning (PyTorch, TensorFlow, Keras…) – nous préférons écrire notre code plutôt que de le générer automatiquement !
  • Un bon niveau d'anglais à l'écrit comme à l'oral, voire même anglophone (le travail du stage aboutira potentiellement à une publication scientifique) – nous préférons écrire nos papiers plutôt que de les générer automatiquement !
  • De la motivation pour passer 6 mois dans l’une des deux meilleures villes en France : Bordeaux ou Lyon.

En fonction de vos préférences, vous pouvez choisir d’être accueilli au Laboratoire IMS à Bordeaux (33) ou EXXACT Robotics à Lyon (69). Des visites dans les deux sens sont envisageables ainsi qu'au siège social d’EXXACT à Epernay (51).

La durée du stage est de 6 mois avec un salaire brut de 1300 euros.

Vous pouvez postuler en envoyant votre CV directement par mail à :