Vous êtes ici : Accueil » Kiosque » Annonce

Identification

Identifiant: 
Mot de passe : 

Mot de passe oublié ?
Détails d'identification oubliés ?

Annonce

15 mars 2018

Reconnaissance visuelle et traitement du langage naturel par apprentissage neuronal profond pour la compréhension de scènes


Catégorie : Doctorant


Il s'agit d'une thèse CIFRE proposée par Orange Labs (4 rue du clos Courtel 35510 CESSON SEVIGNE - France). Si vous êtes intéréssé.e par cet offre, merci de postuler sur orange.jobs :
https://orange.jobs/jobs/offer.do?joid=69224

 

Votre rôle

L’enrichissement automatique en métadonnées des contenus multimédias est la clé de voûte des services innovants dédiés aux contenus dans le domaine du divertissement, de l’information, ou encore de l’éducation. Cela permet d’accroître l’efficacité des moteurs de recherche et des systèmes de recommandation, de proposer de nouveaux parcours de découverte des contenus et d’offrir des expériences innovantes de consommation.

Aujourd'hui, les techniques d'extraction de connaissances à partir de contenus multimédias atteignent des performances significativement meilleures grâce aux réseaux de neurones à apprentissage profond (Deep Learning [1] en anglais), ceci pour un certain nombre de champs d'applications, notamment en reconnaissance visuelle. Ainsi, cette dernière décennie a connu des avancées significatives dans plusieurs domaines de la vision par ordinateur, tels que la détection et la reconnaissance d’objets. Bien que ces avancées aient permis de dépasser les performances humaines, quand les modèles sont entraînés avec suffisamment de données, le niveau d’abstraction des métadonnées issues de ce type d’approches est encore trop faible pour pouvoir parler de « compréhension sémantique » d’une scène visuelle. Par exemple, en plus de savoir dire si un objet est présent dans une image (détection), ou encore identifier de quel objet il s’agit (reconnaissance), de plus en plus de travaux s’intéressent à des tâches de reconnaissance visuelle qui font appel à un niveau

d’abstraction de plus haut niveau, tel que la compréhension des relations spatiales et des interactions entre les objets, ou encore déduire des informations sur l’objet en se basant sur le contexte qui l’entoure dans la scène.Ainsi, ces dernières années ont connu l’émergence de nouvelles problématiques de recherche, à l’intersection entre le domaine de la vision par ordinateur et celui du traitement automatique du langage naturel, ce dernier ayant également connu des avancées grâcenotamment au Deep Learning [2]. Par exemple, les travaux sur la génération automatique de titres décrivant le contenu d’une photo [3], les systèmes de questions / réponses visuelles (VQA) [4] ou encore plus récemment les systèmes de storytelling visuel [5] sont autant d’exemples de sujets qui s’intéressent à la mise en relation entre les caractéristiques bas-niveau apprises pour la reconnaissance visuelle, et les descripteurs sémantiques textuels. L’objectif est à chaque fois de surmonter le « gap sémantique » entre des informations issues du pixel (contours, formes, …) et celles issues du langage (mots, phrases, …). Par exemple, les objets correspondent ainsi aux noms, les activités aux verbes, les attributs visuels aux adjectifs, les relations inter-objets aux prépositions et aux adverbes.

Les champs d’application de ces travaux sont très nombreux. Au-delà du fait de produire des métadonnées plus riche et plus pertinentes d’un point de vue pratique, l’idée est surtout d’améliorer l’interaction homme-machine quand un utilisateur interroge une base de contenus visuels. On peut par exemple imaginer un système de recherche d’images qui ne se base pas sur une simple recherche sur des tags, mais sur une interaction entre le système et l’utilisateur sous forme de questions.

Votre profll

Issu(e) d'un cursus d'ingénieur et/ou Master de Recherche, vous avez des connaissances dans au moins l'un des domaines cités ci-dessous.

Compétences (scientifiques et techniques) et qualités personnelles souhaitées par le poste :

Une première expérience de mise en oeuvre d'algorithmes d'apprentissage neuronal (dans le cadre d'un stage par exemple) serait un plus.

Le plus de l'offre

Objectif scientifique - verrous à lever

Dans le cadre de cette thèse, vous serez amené à travailler sur un sujet à l’intersection de trois domaines de recherche : l’intelligence artificielle (et plus particulièrement le deep learning), la vision par ordinateur et le traitement automatique du langage. L’objectif étant : 1. de proposer des modèles neuronaux entraînés à extraire des descripteurs issus des deux modalités (contenus visuel et textuel), et 2. d’étudier la manière de mettre en relation ces descripteurs appris et de proposer ainsi un système de recherche de contenus visuels capable d’interagir avec l’utilisateur via des requêtes textuelles complexes.

Bien que des avancées significatives aient été accomplies durant ces dernières années dans ce domaine, les résultats obtenus restent néanmoins assez éloignés des performances humaines, surtout quand l’interaction se fait via des requêtes complexes (par exemple des questions dont la réponse n’est pas binaire). Plusieurs verrous scientifiques restent ainsi à lever. Tout d’abord, l’extraction de descripteurs pertinents pour les deux modalités reste en soi un problème ouvert, toujours étudié au sein de la communauté du deep learning. La mise en relation et l’exploitation conjointe de ces descripteurs demeure également un challenge. Certaines études récentes [6] ont démontré en effet que, dans le cadre d’une application de VQA, les méthodes proposées avaient tendance à sous-exploiter le contenu visuel, et à se limiter à faire une prédiction de la réponse en fonction de la question posée. Ceci pose également le problème de l’évaluation de ce type d’approches, qui reste encore un sujet ouvert aujourd’hui. Enfin, il serait également intéressant d’étudier l’extension de ce type d’approches au cas de la vidéo, au-delà d’une simple analyse « image par image ». Ceci permettrait d’adresser de nouveaux types de requêtes, qui concerneraient par exemple la localisation temporelle d’un évènement ou une interaction inter-objets, ou encore l’évolution dans le temps d’un objet dans une scène.

Approche méthodologique-planning

Afin de réaliser ce travail de recherche, vous devrez maîtriser les techniques d’apprentissage neuronal profond. Une montée en compétence dans les premiers mois de la thèse sera donc indispensable à travers la réalisation d’une étude approfondie des techniques existantes et la familiarisation avec les outils logiciels permettant de mettre en œuvre ces techniques. Ce travail devra ensuite être complété par une étude de l’état de l’art spécifique aux deux domaines liés à cette thèse, à savoir l’analyse visuelle pour la compréhension de scènes et le traitement automatique du langage naturel.

Pour se familiariser avec les modèles neuronaux identifiés comme potentiellement pertinents dans les pistes de recherche, vous pourrez être amené dans un premier temps à les manipuler en considérant des problèmes plus simples, de classification par exemple. Il s’agit ensuite d’explorer les pistes identifiées, de les implémenter et de les évaluer. Cela pourra être facilité par l’utilisation du cluster de GPUs dont dispose l’équipe, qui permet d’entraîner des modèles très complexes en un temps raisonnable.

Enfin, le dernier semestre de la thèse sera consacré à la rédaction d’un manuscrit qui synthétise les travaux réalisés, ainsi qu’à la préparation de la soutenance.

Entité

L'équipe « Multimedia contents analysis technologies », au sein de laquelle vous travaillerez, mène des travaux de recherche depuis maintenant plusieurs années sur l'extraction d'informations sémantiques à partir de contenus vidéo, audio et images fixes, en se basant sur des approches par apprentissage profond. Cela a été appliqué avec succès pour une variété d'applications telles que, entre autres, l'analyse faciale ou la reconnaissance de la parole.

Qu'est ce qui fait la valeur ajoutée de cette offre ?

Cet environnement de travail vous permettra :

Références

[1] LeCun, Y., Bengio, Y., & Hinton, G. Deep learning. Nature, 2015.

[2] Mikolov, T., Chen, K., Corrado, G. et al. Efficient estimation of word representations in vector space. CoRR abs/1301.3781, 2013.

[3] Karpathy, A., & Fei-Fei, L. Deep visual-semantic alignments for generating image descriptions. CVPR, 2015.

[4] Antol, S., Agrawal, A., Lu, M. et al. VQA: Visual question answering. ICCV, 2015.

[5] Huang, T-H., Ferraro, F. Mostafazadeh, N. .et al. Visual Storytelling. NAACL 2016.

[6] Kafle, K. & Kanan, C. Visual question answering: Datasets, algorithms, and future challenges. CVIU 2017.

 

https://orange.jobs/jobs/offer.do?joid=69224

 

Dans cette rubrique

(c) GdR 720 ISIS - CNRS - 2011-2018.