Annonce
Thèse CIFRE : détection d’anomalies par apprentissage fédéré pair à pair.
31 Juillet 2023
Catégorie : Doctorant
Proposition de sujet de thèse CIFRE au sein du laboratoire LISTIC (Annecy, Université Savoie Mont Blanc) et Pfeiffer Vacuum (Site d'Annecy).
Note : dans le cadre d'une thèse CIFRE, la thèse ne pourra être lancée qu’après validation ANRT et budget RH Pfeiffer
Contacts:
Alexandre Benoit: alexandre.benoit @ univ-smb.fr
Mickael Bettinelli: mickael.bettinelli@ univ-smb.fr
Planning macro:
Préétude : septembre-décembre 2023, pourraintégrer la personne candidate à la thèse
Thèse : début 2024
Contexte et problématiques
Le projet se situe dans un contexte industriel à grande échellepour lequel l’entreprise Pfeiffer Vacuum produit des appareils de haute précision pour des tiers à l’échelle mondiale. On s’intéresse en particulier aux pompes à vide destinées aux fondeurs de puces électroniques. Dans ce secteur industriel international de pointe et fortement concurrentiel, la maintenance des matériels est cruciale et doit être réalisée avec un niveau maximal de sécurité et confidentialité. En effet, les arrêts de ligne de production pour cause de panne non anticipée impliquent des coûts très importants de plusieurs centaines de milliers d’euros. A ce jour aucune solution ne permet de planifier efficacement le retrait préventif d’un équipement avant sa défaillance.
La problématique de détection d’anomalies peut être traitée à différentes échelles.
A l’échelle de la pompe à vide, on peut parler de systèmes instrumentés en de nombreuses zones critiques pour rapporter des données de différentes modalités : vibrations, températures, pression, puissance électrique consommée, etc. L’identification des données pertinentes pour une détection optimale d’anomalies reste un problème ouvert.
A l’échelle d’une installation chez les fondeurs de puces électroniques, les pompes sont intégrées dans des “chaines de vide” associant différents matériels (pompes, traitement de gaz, etc.) qui placent chaque pompe dans un contexte spécifique. La détection d’anomalie peut en effet dépendre des conditions d’usage de chaque appareil au sein de la chaine, de son usure, de ses interactions avec les autres composants. Ainsi, la détection d'anomalies au niveau d'une pompe bien qu’étant une problématique générale aux différents appareils d’une installation industrielle doit alors être adaptée au contexte local.
Le contexte industriel impose par ailleurs des contraintes de confidentialité. Dans un environnement très concurrentiel, les clients de Pfeiffer Vacuum souhaitent bénéficier d’un service de détection d’anomalies mais ne peuvent communiquer les mesures et les diagnostiques réalisés au niveau des pompes. Il est donc nécessaire d’envisager une optimisation locale des détecteurs d’anomalies tout en garantissant un haut niveau de fiabilité et de capacités de généralisation à de nouvelles situations.
Problématique scientifique
La piste envisagée dans cette proposition de thèse est alors de s'appuyer sur l'apprentissage fédéré [1] dans une infrastructure de communication pair à pair - également nommé apprentissage fédéré décentralisé. Cette approche décentralisée doit permettre, au-delà de l'amélioration de la pertinence des modèles, de s’intégrer dans une infrastructure IoT chez les clients, sans nécessiter de serveur central supplémentaire et favorisant le partage de connaissance entre les modèles locaux. Il s'agit de la problématique scientifique principale de la thèse. Ceci permet de répondre à certaines contraintes de confidentialité et d’apprentissage collaboratif intégrant des processus d’adaptation locaux. Les questions scientifiques principales qui seront étudiées sont :
- Comment optimiser des modèles pertinents pour des ensembles de matériels présentant de nombreuses déclinaisons, usages et contextes ? On peut parler d’optimisation de communautés de modèles/matériels qui ne sont pas forcément identifiées en amont [2].
- A l’échelle d’une chaine de vide, comment associer différents modèles de détection d'anomalies pour affiner la prédiction des pannes ? L'expertise du domaine faisant remonter des dépendances dynamiques, la fusion des différentes prédictions et l’explicabilité du modèle global de détection constituent un second grand défi. Il sera possible d’envisager cette problématique sous l’angle des systèmes multi-agent [4]
Aussi, du point de vue du modèle de détection d’anomalies à l'échelle de la pompe, certaines orientations sont identifiées et pourront amener à des contributions complémentaires. L’expérience métier montre déjà que la détection d’anomalies la plus efficace s’appuie sur les modèles par apprentissage automatique, typiquement des réseaux de neurones profonds. L’aspect multimodal des données mesurées ainsi que la complexité du système pompe amène à privilégier des modèles de type boite noire. Il s’agit alors d’optimiser des modèles paramétriques y=f(θ) optimisés par apprentissage à partir des données X, X étant une agrégation de données hétérogènes [x0, x1, …, xn] issues des différents capteurs disposés sur les matériels. Durant la thèse, afin d’identifier les données pertinentes pour la détection et fournir des informations précises facilitant la maintenance, l'adhésion et l’acceptation des méthodes IA par les personnels, le modèle de détection d’anomalies devra intégrer des contraintes d’explicabilité [3]. Cette contrainte pourra s’appuyer sur un état de l’art déjà riche et l’expérience du laboratoire LISTIC pour mener à des contributions originales en début de thèse et constituer une base solide pour l’apprentissage fédéré décentralisé.
Planning prévisionnel
En amont de la thèse
Une pré étude de 4 mois avec le partenaire industriel sera réalisée afin de consolider le contexte de la thèse. Il s’agira de tâches d’ingénierie sur les métiers “data architect”, “data science” et “MLops” permettant d’identifier et de prototyper les processus de préparation des données, validation et déploiement de modèles IA facilitant le démarrage de la thèse. Certains objectifs pourront être réalisés par la personne candidate à la thèse et lui permettre ainsi de s’approprier en amont les outils, le contexte et son matériel.
La thèse
Nous proposons une démarche progressive de l’avancement de la thèse avec des échéances indicatives :
Période 1 : modèle de détection de référence intégrant des contraintes d’explicabilité
1.a. Etat de l’art sur la détection d’anomalie et les modèles explicables (T0-T0+4).
1.b Proposition de modèles de détection de référence intégrant des contraintes d’explicabilité (T0+4-T0+7)
Période 2 : étude de modèles optimisés par apprentissage décentralisé pair à pair
2.a. Etat de l’art et définition d’une approche d’apprentissage fédéré pair à pair (p2p) (T0+6-T0+16)
2.b Extension de l’apprentissage fédéré p2p avec détection de communautés (T0+16-T0+26).
2.c Du modèle global de l’appareil aux modèles locaux intra-appareil(T0+26-T0+36).