Annonce

Les commentaires sont clos.

[Thèse CIFRE] Nettoyage automatisé de données avec des réseaux de neurones profonds

16 Mai 2022


Catégorie : Doctorant


Résumé du projet de thèse :

L’industrie 4.0 s’appuie sur la récupération et l’analyse de données provenant de nombreux capteurs et machines. La détection automatique non-supervisée d’anomalies dans ces données, suivie d’un nettoyage adéquat, est essentiel pour garantir le développement de cette nouvelle industrie. Ce projet de thèse souhaite développer un réseau de neurones profond pour effectuer ces détections et le nettoyage associé. L’architecture de ce réseau doit permettre de comprendre pourquoi le réseau nettoie, et donc modifie, une donnée. De cette façon, ce nettoyage automatisé sera explicable pour les utilisateurs impliqués.

La thèse sera réalisée avec le laboratoire I3S rattaché à l’Université Côte d’Azur et au CNRS et l’entreprise Himydata.

 

Objectifs de la thèse :

Le principal objectif de cette thèse est de développer une méthode d’apprentissage non-supervisé qui analyse des données, notamment des séries temporelles, pour détecter des anomalies puis corriger ces anomalies. Dans ce but, le doctorant concevra un réseau de neurones profonds novateur.

L’apprentissage profond représente une approche prometteuse dans le sens où il permet de réaliser toutes les étapes nécessaires à la détection et au nettoyage. Les modèles génératifs sont un très bon moyen d’apprendre la distribution de données en modélisant les probabilités conditionnelles d’un jeu de données de manière non-supervisée. Le but d’un modèle génératif est d’apprendre la véritable distribution mais, comme cela n’est généralement pas faisable à cause de la malédiction de la dimension, son but va être de s’approcher au mieux de cette véritable distribution en optimisant un critère d’apprentissage. De nos jours, ce travail d’apprentissage de fonction est fait à l’aide des réseaux neuronaux profonds.

Un des points importants pour Himydata est l’explicabilité des résultats obtenus et, par conséquent, l’identification des mécanismes internes au modèle. Par conséquent, le modèle qui sera développer dans la thèse doit rester explicable. L’apprentissage d’un réseau profond dans le cas non-supervisé (lorsque les étiquettes sont totalement inconnues) conduit à représentation emmêlée. Ceci signifie que les liens entre les variables au sein du réseau de neurones et les valeurs en entrée sont obscurs et inexplicables. Il s’agira donc de construire un réseau de neurones pertinent et de proposer un algorithme d’entrainement du réseau qui permet de créer des liens explicites entre les variables impliquées dans les représentations internes du réseau.

 

Compétences souhaitées : Apprentissage automatique (machine learning), réseau de neurones, probabilités et statistiques, Python (ou langage équivalent), autonomie, curiosité, esprit de synthèse.

Le candidat devra être titulaire d'un M2 ou grade équivalent au moment du recrutement.

 

Comment candidater ?

Le dossier de candidature sera composé d'un CV détaillé, d'un relevé de notes (si possible de la 1ère année post-bac jusqu’au master/diplôme d’ingénieur), d'une lettre de motivation et des coordonnées d'au moins une personne référente (encadrant de stage, professeur...).

 

Contact :

- Lionel Fillatre, Université Côte d’Azur, Laboratoire I3S

E-mail : lionel.fillatre@i3s.unice.fr

- David Bessoudo, Himydata

E-mail : david@himydata.com