Annonce

Les commentaires sont clos.

Proposition de thèse IMT Atlantique/Lab-STICC : Apprentissage auto-supervisé pour la télésurveillance sonore

15 Septembre 2022


Catégorie : Doctorant


Proposition: contrat à durée déterminée (CDD) de 36 mois au département Mathematical and Electrical Engineering (MEE) de l’IMT Atlantique, campus de Brest. Cette thèse est associée aux recherches menées par l’équipe Algorithm Architecture Interactions (2AI) du laboratoire LabSTICC CNRS UMR 6285 sur l’Intelligence Artificielle (IA) neuro-inspirée. Les travaux se feront également en étroite collaboration avec l’entreprise OSO-AI (https://www.oso-ai.com/). La rémunération mensuelle nette est de 1696 euros.

Profil du candidat ou de la candidate: les candidats à cette thèse doivent être titulaires d'un diplôme bac+5 et avoir une bonne connaissance des méthodes et outils de l’apprentissage machine à base de réseaux de neurones. Une expérience dans ce domaine (stage, projet, …) est souhaitable. En particulier, de bonnes connaissances du langage de programmation Python et d'une ou plusieurs bibliothèques spécifiques à l’apprentissage profond (Pytorch, Tensorflow,...) sont demandées.

Pour prendre contact : envoyer CV et lettre de motivation à MM. Claude Berrou (claude.berrou@imt-atlantique.fr) et Raphaël Le Bidan (raphael.lebidan@imt-atlantique.fr)

Objet de l'étude : développer des algorithmes connexionnistes (réseaux de neurones) pour la reconnaissance de l’environnement sonore à partir d’une base de données réduite et avec peu de labels. Voir ci-dessous.



L’Intelligence Artificielle (IA) a connu ces dernières années des développements considérables et offre aujourd’hui des solutions d’automatisation précieuses dans de nombreux secteurs, industriels et médicaux. Ces progrès ont été obtenus sur trois plans : matériel, algorithmes et collecte des données. Sur le premier point, c’est grâce aux avancées de la micro-électronique (composants et architectures) que l’on dispose aujourd’hui de calculateurs à processus massivement parallèles. Ces calculateurs permettent d’obtenir des résultats de simulation de systèmes complexes en des temps désormais raisonnables. Le deuxième point est lié aux réseaux de neurones artificiels qui, depuis le perceptron élémentaire de Rosenblatt (1957), se sont substantiellement sophistiqués pour aller vers ce qu’on appelle l’apprentissage profond (deep learning). Enfin, les bases de données se sont abondamment enrichies qu’il s’agisse d’images fixes ou animées, de texte ou de son, ce qui a permis de mettre au point des algorithmes avec des propriétés de généralisation remarquables.

Cependant, beaucoup des principes qui sont aujourd’hui appliqués dans les réseaux de neurones artificiels sont éloignés des réalités neurophysiologiques. L’IA moderne ne se préoccupe pas de répliquer l’intelligence naturelle à la façon du réseau cortical. Un exemple frappant en est donné par l’apprentissage supervisé qui suppose que la connaissance (les labels) doit être un préalable à son acquisition. Ce non-sens disparait avec l’apprentissage auto-supervisé, lequel n’a pas besoin de labels pour découvrir des similitudes entre les échantillons d’une même catégorie. De plus, l’apprentissage auto-supervisé, si les algorithmes sont bien pensés, doit pouvoir être mis en œuvre avec des bases de données peu volumineuses (au contraire de la version supervisée) si l’on admet que quelques échantillons d’une même classe sont suffisants pour y trouver des caractéristiques communes et suffisamment représentatives de cette classe.

De nombreuses applications de l’IA ne peuvent avoir accès à de vastes bases de données. Les services de télésurveillance dans les résidences pour personnes âgées, dans les établissements médico-sociaux et les hôpitaux proposés par l’entreprise OSO-AI en sont un exemple concret, pour différentes raisons. D’abord, l’IA appliquée au son ne s’est pas développée aussi rapidement que celle dédiée aux images ou aux textes. Les bases de données publiques sont donc nettement moins nombreuses. Ensuite, l’environnement sonore varie très sensiblement d’un endroit à un autre et les enregistrements préalables à l’audiosurveillance ne peuvent évidemment pas se multiplier dans chacun de ces endroits. Une autre raison est liée à la rareté des événements à détecter, comme par exemple les chutes ou les appels à l’aide. L’apprentissage auto-supervisé ou pour le moins faiblement supervisé, avec peu d’exemples disponibles, est une voie prometteuse pour ce type d’applications.

Des premiers essais d’apprentissage auto-supervisé, dans l’esprit d’une IA presque complètement neuro-inspirée (en particulier basée sur la compétition intra-couche [1]) ont été effectués par l’équipe d’accueil. Les résultats obtenus sur des images (MNIST, CIFAR-10) sont extrêmement encourageants car supérieurs à l’état de l’art [2]. En collaboration avec les chercheurs de l’équipe du laboratoire d’accueil et les ingénieurs de l’entreprise, le doctorant aura pour tâche principale de porter les algorithmes vers des séquences sonores et de proposer une version capable de s’adapter à tout type de données. Il sera amené à participer à différentes conférences du domaine et à rédiger plusieurs publications.

[1] R. K. Srivastava, J. Masci, S. Kazerounian, F. Gomez, J. Schmidhuber, "Compete to compute", Advances in Neural Information Processing Systems (NIPS), pp. 2310—2318, 2013.
[2] Xu Ji, Joao F. Henriques, and Andrea Vedaldi, "Invariant information clustering for unsupervised image classification and segmentation, Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 9865-9874, 2019.