Annonce

Les commentaires sont clos.

Soutenance de thèse : Recherche du rôle des intervenants et de leurs interactions pour la structuration des documents audiovisuels

4 Juillet 2011


Catégorie : Soutenance de thèse


Recherche du rôle des intervenants et de leurs interactions pour la   structuration des documents audiovisuels.
Soutenance de la thèse de Benjamin Bigot, le 6 juillet 2011, 10h15, amphithéâtre Schwartz de l'IMT.

Recherche du rôle des intervenants et de leurs interactions pour la  structuration des documents audiovisuels.

La soutenance se déroulera le mercredi 6 Juillet 2011 à 10h15 dans l'amphithéâtre Schwartz de l'IMT (repère 9 sur le plan).

Composition du jury
  • Mme Martha Larson, Senior Researcher, Université de Delft
  • Mr Guillaume Gravier, HDR, Université de Rennes 1
  • Mr Yannick Estève, Professeur, Université du Maine
  • Mr Frédéric Béchet, Professeur, Université de la Méditerranée
  • Mr Régine André-Obrecht, Professeur, Université Paul Sabatier
  • Mme Isabelle Ferrané, MdC, Université Paul Sabatier
  • Mr Julien Pinquier, MdC, Université Paul Sabatier
Résumé

Le cadre général de cette thèse est celui de l'extraction d'informations dans les documents audiovisuels par le biais d'une analyse automatique du contenu.

Nous proposons un système complet de structuration automatique d'enregistrements audiovisuels fondée sur un ensemble d'informations non lexicales propres aux intervenants apparaissant dans ces documents. Nous présentons dans un premier temps une méthode de détection et de caractérisation des interactions orales durant lesquelles les intervenants sont susceptibles d'être impliqués dans une conversation.

Cette étape est suivie d'une catégorisation des intervenants grâce à une méthode originale de reconnaissance automatique du rôle. Notre contribution au domaine de la reconnaissance automatique du rôle se distingue de l'existant en reposant sur l'hypothèse selon laquelle les rôles (présentateurs, journalistes, autres...) des intervenants sont accessibles à travers un ensemble de paramètres « bas niveau » liés à l'organisation temporelle des tours de parole des locuteurs, aux environnements acoustiques dans lesquels ils apparaissent, ainsi que dans plusieurs paramètres prosodiques caractéristiques de leur manière de parler.

Les performances de reconnaissance de cinq rôles obtenues sur les corpus EPAC et ESTER2 valident cette hypothèse. Dans une ultime étape, les informations liées aux interactions orales et aux rôles des intervenants sont intégrés dans une méthode de structuration fondée sur des heuristiques simples. Un premier niveau de description exploite les rôles détectés pour segmenter les enregistrements audiovisuels en zones de types « informations », « entretiens », « transition » et « intermède ». Un second niveau de description permet de catégoriser les zones d'interaction en « débat », « interview », « chronique » et « relais ».

La validation du système appliqué à l'ensemble de documents du corpus EPAC a montré de bons résultats.