Vous êtes ici : Accueil » Kiosque » Annonce

Identification

Identifiant: 
Mot de passe : 

Mot de passe oublié ?
Détails d'identification oubliés ?

Annonce

18 janvier 2021

Stage M2: Deep Learning pour la santé


Catégorie : Stagiaire


Stage M2/Ingénieur
 
Sujet : Il s'agit de développer un réseau de neurones profond pour des jeux de données déséquilibrés lorsque certaines classes à reconnaître sont peu représentées. Ce stage se fera en collaboration avec le Centre Hospitalier Universitaire (CHU) de Nice.
 
Objectif :
 
Le Deep Learning (ou apprentissage profond) est une technique d’analyse de données qui permet d’obtenir des résultats de classification ou d’estimation très performants quel que soit le domaine applicatif. Ce sujet de stage s’intéresse à l’utilisation du Deep Learning pour l’analyse des données médicales. Il s’agit plus particulièrement de décider si un patient a développé ou non certaines maladies du foie en exploitant des données cliniques et des données biologiques. La stéato-hépatite non alcoolique du foie (connue du grand public sous le nom « maladie du foie gras » [1]) est la maladie dont la détection sera privilégiée pendant le stage. Dans ce but, nous disposons de deux jeux de données réelles étiquetées, fournis par des médecins, qui contiennent de nombreux attributs médicaux et plusieurs centaines de patients. Les étiquettes décrivent l’état du foie du patient. Le but du stage est d’utiliser un algorithme de Deep Learning supervisé [2] pour estimer l’état du foie du patient.
 
Ce stage s’intéresse à la robustesse d’un réseau de neurones profond par rapport aux distributions statistiques des données en entrées. En effet, les différents états du foie que nous souhaitons identifier ne sont pas représentés de façon équilibrée dans le jeu de données (« imbalanced dataset »). Il nous faut donc développer une technique de machine learning pour que le réseau de neurones ne soit pas influencé par ce déséquilibre [3]. Le stagiaire développera une méthodologie qui pourra fonctionner dans des cas très généraux et qui pourra donc être appliquée à d’autres jeux de données. Par ailleurs, les données à traiter sont de nature très hétérogène (variable binaire, catégorielle ou continue). L’encodage de ces données (« data embedding ») en entrée du réseau de neurones est donc essentiel [4] pour obtenir de bonnes performances. Le stagiaire proposera un encodage des données adapté aux jeux de données.
 
Contexte :
 
L’équipe MediaCoding du laboratoire I3S collabore sur ce sujet avec le Centre Hospitalier Universitaire (CHU) de Nice. Le stagiaire disposera donc de données médicales et cliniques de grande qualité. Il pourra également bénéficier de l’expertise d’un professeur gastro-entérologue et hépatologue.
 
Profil recherché :
 
Ces travaux requièrent les compétences suivantes :
- Programmation informatique (connaître préalablement Python n’est pas nécessaire mais souhaitable)
- Notions de bases en machine learning (réseau de neurones, régression logistique, SVM, arbre de décision, etc.)
 
Les développements informatiques seront réalisés en Python avec les librairies Scikit-Learn (pour utiliser des algorithmes de machine learning) et Pytorch (pour le Deep Learning).
 
Lieu du stage : campus SophiaTech (Sophia Antipolis).
 
Encadrant du stage :
 
M. Lionel Fillatre (professeur des universités)
Courriel : lionel.fillatre@i3s.unice.fr
 
Durée : de 4 à 6 mois (démarrage en mars/avril 2021 selon les contraintes du stagiaire).
 
Rémunération : environ 550 euros par mois.
 
Procédure pour déposer sa candidature : envoyer son CV, sa lettre de motivation et ses résultats académiques niveau L1, L2, L3, M1 et M2 à lionel.fillatre@i3s.unice.fr
 
Bibliographie :
 
[1] https://www.the-nash-education-program.com/fr/quest-ce-que-la-nash/
[2] http://www.deeplearningbook.org/
[3] Hancock, J.T., Khoshgoftaar, T.M. Survey on categorical data for neural networks. J. Big Data 7, 28 (2020)
[4] Johnson, J.M., Khoshgoftaar, T.M. Survey on deep learning with class imbalance. J. Big Data 6, 27 (2019)
 

Dans cette rubrique

(c) GdR 720 ISIS - CNRS - 2011-2020.