Vous êtes ici : Accueil » Kiosque » Annonce

Identification

Identifiant: 
Mot de passe : 

Mot de passe oublié ?
Détails d'identification oubliés ?

Annonce

13 février 2018

Apprentissage incrémental pour les systèmes de question-réponse visuels


Catégorie : Doctorant


Lieu : centre ONERA / Palaiseau

Département Traitement de l’Information et Modélisation

 

Apprentissage incrémental pour les systèmes de question-réponse visuels

Les techniques d’apprentissage alliées à des moyens de calcul massivement parallèles (GPU) et la disponibilité de bases de données annotées de grand volume ont permis le développement de tâches d’interprétation automatique d’image et de vidéo (reconnaissance d’objet, pistage, segmentation sémantique, description textuelle) caractérisées par des performances les rendant réellement utilisables pour certaines applications – gestion/partage de photos personnelles, véhicule autonome par exemple. Cependant, ces réussites dépendent encore fortement de la qualité et quantité des données d’apprentissage disponibles et délimitent de fait le domaine d’utilisation de ces fonctionnalités : les algorithmes de l’état de l’art se comportent bien mieux sur les images fréquentes d’animaux familiers que sur des images d’œuvres d’art, par exemple, plus complexes, de grande variabilité et rares.

Nous nous proposons dans cette thèse d’aborder la question de l’évolution des systèmes d’interprétation visuelle, et de concevoir une approche permettant de garantir une extension de leurs capacités au long cours – une approche incrémentale. Une autre manière d’exprimer le problème est de s’intéresser à la vie d’un système d’interprétation, de sa naissance à sa maturité, plutôt que simplement à sa conception pour une tâche précise et une base d’apprentissage donnée.

Partant de l’état courant d’un système d’interprétation, issu d’une phase d’apprentissage et pour un ensemble précis de tâches, la problématique de son évolution peut être envisagée selon deux directions :

Des travaux récents se sont intéressés à étendre les capacités d’interprétation par la conception de systèmes capables de répondre à un ensemble de questions variées et non figées sur le contenu visuel de la scène (« Visual Question Answering » ou VQA en anglais), et de répondre à des questions du type : Qui est dans l’image ? Que fait-il ? Avec qui l’homme en bleu discute-t-il ? Pourquoi la petite fille pleure-t-elle ? etc.

La formulation de l’interprétation visuelle de données comme VQA permet de préciser les deux questions de l’extension du domaine d’utilisation, et de l’augmentation du répertoire des tâches à aborder dans les travaux de thèse :

  1. Comment améliorer progressivement la fiabilité de réponse aux questions sur un nombre plus important de données ? Une solution pourra être de développer une approche d’apprentissage actif (« active learning » en anglais) adaptée au problème de VQA et capable d’identifier les lieux des espaces de représentation nécessitant un supplément d’information ou d’annotation. Des méthodes de génération de données pourront aussi être utilisées, ou d’exploitation de représentations intermédiaires par attributs (« zero-shot learning »).
  2. Comment améliorer et garantir incrémentalement l'étendue des compétences d'interprétation, i.e. le répertoire de questions susceptibles d'être correctement répondues, sans disposer de la totalité de la base de données renseignée utilisée dans les phases initiales d'apprentissage ?

Une des questions préalables sera de préciser le cadre formel dans lequel sera décrit le système d’interprétation. Les approches exploitant des réseaux profonds monolithiques (réseaux convolutifs, réseaux récurrents), les plus courants dans les approches de détection ou classification, proposent un format homogène pour l’apprentissage, mais peuvent avoir des difficultés à accueillir de nouvelles tâches ou situations sans dégradation globale de leurs performances. Les modèles modulaires ou composés ont potentiellement une capacité structurale d’adaptation, et sont donc susceptibles de mieux résister à une évolutivité, mais au prix d’une complexité de mise en œuvre et de contrôle.

Mots clés : Apprentissage profond, Apprentissage actif, Représentations composées, système de questions/réponses visuelles, zero-shot learning, vision par ordinateur.

Bibliographie indicative :

Contacts

Responsable ONERA : Stéphane HERBIN (stephane.herbin@onera.fr)

Directeur de thèse : Frédéric JURIE Université de Caen (frederic.jurie@unicaen.fr)

Lieu : centre ONERA / Palaiseau
Département Traitement de l’Information et Modélisation

 

Dans cette rubrique

(c) GdR 720 ISIS - CNRS - 2011-2018.