Annonce

Les commentaires sont clos.

IA décentralisé éthique et sans biais

18 Mai 2022


Catégorie : Doctorant


Résumé

L'apprentissage automatique est utilisé de façon croissante dans les processus de prise de décision et nous permet de résoudre des problèmes de plus en plus complexes. Cette approche augmente néanmoins le risque de discriminations envers certaines populations de données, qu’elles soient liées à des systèmes physiques ou à des personnes. Ce risque est notamment lié aux biais introduits dans le processus d'apprentissage. L'apprentissage fédéré, un nouveau paradigme de l’apprentissage automatique qui tend à s’imposer pour répondre aux problématiques de confidentialité des données et de décentralisation des calculs est également concerné. Cette approche collaborative maintient les données proches de leur source et rend alors plus complexe la gestion des biais. En effet, les contraintes de confidentialité et, selon les cas, de protection de vie privée imposées dans cette approche ne permettent pas d'utiliser les techniques classiques d'atténuation des biais. Par ailleurs, l'une des finalités de l'apprentissage fédéré est de construire des modèles adaptés à des populations organisées de façon hiérarchique dans le but de générer des modèles intermédiaires adaptés à des groupes de populations différentes. Des questions fondamentales se posent alors sur la création et la maîtrise de l’évolution temporelle de cette hiérarchie tout en préservant la confidentialité des données et en réduisant les biais. L'état de l'art ne rapporte actuellement pas de travaux sur ce cadre général ou se limite à une approche globale non hiérarchique. L'objectif de la thèse est alors de proposer des méthodes de détection et d'élimination des biais à la fois globaux et liés à des sous-populations en prenant en compte l'aspect dynamique des données et les contraintes de protection de vie privée en s'appuyant sur des cas d’étude réalistes de l’état de l’art et issus de projets au sein du LISTIC.

 

Abstract

The application of machine learning methods to decision-making processes is growing and allows us to solve increasingly complex problems. However, this approach exposes to uncontrolled discrimination risk against specific data clusters whether they are related to physical systems or to people. This risk is notably linked to the biases introduced in the learning process. Federated learning, a new machine learning paradigm that is gaining ground to address current issues on data confidentiality and decentralization of calculations, is also concerned. This collaborative approach keeps the data close to its source and makes the management of bias more complex. Indeed, the confidentiality constraints and, depending on the case, the privacy protection imposed in this approach does not allow for the use of classical bias mitigation techniques. Moreover, one of the purposes of federated learning is to build models adapted to hierarchically organized populations in order to generate intermediate models adapted to data clusters. Fundamental questions then arise on how to create and control the temporal evolution of this hierarchy while preserving data confidentiality and reducing bias. The state of the art does not currently report any work on this general framework or is limited to a global non-hierarchical approach. The objective of the thesis is then to propose methods for detecting and eliminating both global and sub-population biases by taking into account the dynamic aspect of the data and the privacy constraints. This project will address realistic case studies from the state of the art and from projects within the LISTIC.

 

 

Contexte et motivation

De nos jours, l'apprentissage automatique est appliqué dans de nombreux domaines pour extraire des connaissances à partir de données et guider des processus de prise de décision de plus en plus complexes, des moteurs de recherche au diagnostic de maladies. Il est donc crucial de s'assurer que les prédictions apportées par ces approches ne reflètent pas un comportement discriminatoire envers certaines populations, au sens statistique, que ce soit au niveau des données ou des personnes. L'un des facteurs qui peuvent conduire à des décisions erronées est le biais d'apprentissage. Il est généralement la conséquence de l'utilisation d'ensemble de données et de modèles incomplets, défectueux ou préjudiciables. Par exemple, en 2014, la société Amazon a développé un système de sélection automatique de candidats. Travaillant à partir du texte figurant sur leur curriculum vitae, il s'est avéré que l'outil défavorisait les candidatures féminines, car elles étaient sous-représentées dans les données d'apprentissage [4]. Ces biais prennent ainsi leur origine dès la collecte des données.

Cette collecte peut prendre différentes formes selon la manière dont le modèle recherché est optimisé. Comme illustré dans la Figure 1a, les approches classiques optimisent un modèle f(C) sur un serveur central. Cela implique de communiquer et d'agréger sur ce serveur toutes les données créées depuis des sources potentiellement distantes et distribuées. Cette approche pose alors des problèmes supplémentaires de coût de communication ainsi que de protection de vie privée (privacy). Finalement, dans cette configuration désormais classique, la réduction des biais peut être réalisée en bénéficiant de l'accès à l'ensemble des données, mais reste un problème ouvert [9]. Afin de contrer ces différents problèmes, une approche collaborative a été récemment introduite et est illustrée dans la Figure 1b. Appelée apprentissage fédéré (FL pour Federated Learning), elle permet l'optimisation locale de modèles f(i), près de chaque source de données. Par un processus collaboratif, les modèles locaux partagent leur expérience pour gagner en capacité de généralisation et produire un modèle plus général f(FL), sans jamais que les données ne soient transmises. Dans cette approche, seuls les paramètres des modèles sont échangés et fusionnés pour obtenir f(FL)=fusion([1, 2, ..., n]). Ainsi, réduisant les coûts de communication, protégeant les données privées en étant structurellement compatibles avec le règlement général de protection des données (RGPD), le FL apparaît comme une approche très prometteuse. En revanche, les problèmes de biais doivent être considérés sous un angle nouveau, en prenant notamment en compte le taux de participation et les distributions de données de chaque modèle participant. Dans ce cadre fédéré, les biais peuvent effectivement être exacerbés au niveau des populations au risque d'induire à nouveau des conséquences préjudiciables telles que la ségrégation raciale ou sexiste, les actions illégales, les inégalités de revenus [6], etc. En outre, les contraintes de protection de vie privée imposées en apprentissage fédéré ne permettent pas d'utiliser les techniques classiques d'atténuation des biais. Ainsi, bien que le FL apparaisse comme une étape majeure en apprentissage automatique, l'étude de ses biais reste un verrou scientifique important à lever.

 

Contact

alexandre.benoit@univ-smb.fr