Annonce

Les commentaires sont clos.

Offre de thèse : "Response generation models for solving multi-faceted information needs"

20 Avril 2022


Catégorie : Doctorant


Une offre de thèse sur la conception des modèles de questions-réponses pour résoudre des besoins d’information multi-facettes est à pourvoir à l'ISIR - Institut des Systèmes Intelligents et de Robotique (Sorbonne Université).

Sujet : Modèles de génération de réponse pour la recherche d’information à multiples facettes

Profil : Master ou diplôme d’ingénieur·e en informatique ou en mathématiques appliquées, en rapport avec l’apprentissage automatique, le traitement du langage naturel ou la recherche d’informations

Collaboration : Thèse CIFRE en collaboration avec EcoVadis France

Lien : https://www.isir.upmc.fr/nous-rejoindre/oppotunites/

 

Contexte :

La perspective de nouveaux systèmes de recherche d'information (RI) (par exemple, les systèmes conversationnels orientés recherche ou les systèmes prenant en charge des tâches de recherche complexes) a favorisé la recherche de modèles théoriques de recherche d'information qui tirent partie des interactions des utilisateurs ou les prennent en compte, par exemple, par la clarification des questions ou des modèles interactifs. Cependant, très peu de travaux se concentrent sur la manière d'interagir avec l'utilisateur en langage naturel, ce qui est essentiel, par exemple pour les systèmes conversationnels.

Description du projet :

L'objectif principal de la thèse est de concevoir des modèles de questions-réponses visant à résoudre des besoins d'information multi-facettes. Plus particulièrement, étant donné une collection de documents, notre objectif est de générer des réponses structurées et complètes, couvrant toutes les facettes d'un besoin d'information complexe.

Pour ce faire, des approches et des modèles issus de la recherche d'information (RI) et du traitement du langage naturel (TLN) seront utilisés. Ces deux domaines de recherche exploitent des techniques d’apprentissage (DL) pour modéliser la sémantique des textes et générer de nouvelles connaissances.

Plus précisément, nous avons montré dans un travail préalable [DGS+22] le potentiel des approches "data-to-text" [PDL19a, RSSG20, PDL19b] pour la génération de réponses complexes.

Notre objectif à long terme est de s'adapter au contexte de la recherche conversationnelle et de prendre en compte les interactions des utilisateurs et le contexte de la conversation [EPBG19, TY20], ainsi que d'inclure des caractéristiques orientées vers la tâche de recherche dans le processus de génération [FWZ+20, ZZW+20]. Deux lignes de recherche principales principaux axes de recherche se distinguent :

  • l'une est liée à la multiplicité des sources de données (texte, tableaux, figures, etc.) utilisées pour générer le texte et la structure de sortie,
  • l'autre est plus liée à la satisfaction de l'utilisateur par rapport à la sortie en elle-même.

Le document généré doit être à la fois complet, compréhensible et explicable.

L'application à des cas d'utilisation industrielle sera envisagée en collaboration avec l'équipe de développement d'Ecovadis.

Tous nos modèles seront évalués sur des benchmarks académiques, permettant une évaluation quantitative et la publication des résultats obtenus.

Profil recherché :

Master ou diplôme d'ingénieur en informatique ou en mathématiques appliquées en rapport avec l'apprentissage automatique, le traitement du langage naturel ou la recherche d'informations.

Le candidat doit avoir un solide bagage scientifique, de bonnes compétences techniques en programmation, et doit pouvoir lire et écrire couramment l’anglais.

Début et durée (prévue) : Octobre/novembre 2022, 36 mois

En savoir plus et candidater : https://www.isir.upmc.fr/nous-rejoindre/oppotunites/