Réunion
Bilan TRECVID
Thèmes scientifiques :
- B - Image et Vision
Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.
Inscriptions
26 personnes membres du GdR ISIS, et 0 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 40 personnes.
Annonce
Le consortium IRIM GDR-ISIS participe au défi international TRECVID sur l'évaluation des systèmes d'indexation et de recherche par le contenu dans les documents vidéos à grande échelle (http://www-nlpir.nist.gov/projects/tv2011/tv2011.html) assurant ainsi la reconnaissance et la visibilité mondiale de la recherche française dans ce domaine.
Cette année, 12 équipes françaises ont collaboré dans le cadre d'IRIM pour une participation conjointe à la campagne internationale. Sur la tâche de détection de concepts, IRIM a obtenu la cinquième place sur 19 participants. Sur la tâche de recherche d'instance, la participation d'IRIM a été dans la moyenne. Les membres du groupe IRIM présenteront les éléments avec lesquels ils ont contribué : descripteurs, post-traitements, classification, fusion et ré-ordonnancement. Un bilan sur la participation d'IRIM à TRECVID 2011 et une discussion sur la participation d'IRIM à TRECVID 2012 sont également prévues.
Des industriels invités tels que l'INA, l'ONERA, CEA, Exalead, L?INA exposeront ensuite des travaux et problématiques récentes liées à l'indexation de contenus multimédia, abordant aussi la question importante du passage à l'échelle.
Programme
- 10h00 Introduction et présentation générale de TRECVID, Georges Quénot.
- 10h15 Présentation de la tâche SIN et organisation de la collaboration pour TRECVID 2011, Georges Quénot.
- 10h30 Participation à la tâche Instance Search (INS), Boris Mansencal et Jenny Benois-Pineau.
- 10h55 L'approche de fusion utilisée par le LIMSI pour les soumissions IRIM 1 et 4, Hervé Bredin.
- 11h10 L'approche de fusion utilisée par le LISTIC pour les soumissions IRIM 2 et 3, Tiberius Strat et Patrick Lambert
- 11h25 Eurecom à Trecvid, Bernard Mérialdo.
- 11h40 Semantic Indexing With Audio Visual Features, Boyang Gao et Liming Chen.
- 11h50 Bilan et préparation de la campagne 2012, Georges Quénot et tous.
- 12h00 Reconnaissance visuelle à grande échelle, Florent Perronnin, Xerox Research Center Europe (XRCE).
- 14h00 Le pistage vidéo de personnes, Valérie Leung, ONERA.
- 14h35 Transfert de technologies multimédia pour répondre aux problématiques industrielles, Hervé Le Borgne, CEA-LIST.
- 15h10 L'indexation multimédia : approches et applications dans les services d'accès aux contenus, Sid-Ahmed Berrani, Orange Labs - France Telecom R&D.
- 15h45 Archivage du patrimoine audiovisuel : usages et pistes de recherche,Jean Carrive, Chef de projet Recherche, INA Sup.
- 16h20 Besoins industriels rencontrés en Indexation multimédia, Julien LAW TO, R&D Labs, Exalead.
- 17h00 Fin de la journée.
Résumés des contributions
Reconnaissance visuelle à grande échelle
Florent Perronnin, Xerox Research Center Europe (XRCE)
Durant ce séminaire, je présenterai le système de classification d'images qui a permis à Xerox Research de gagner la compétition ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2011. Pour faire simple, notre système comprend trois modules principaux :
a) un module de génération de signatures d'images qui calcule des descripteurs de grande dimension par agrégation de descripteur locaux en utilisant le principe des noyaux de Fisher,
b) un module de compression des signatures afin de réduire leur emprunte mémoire et qui est basé sur la quantification produit et enfin
c) un module d'apprentissage de séparateurs a vaste marge basé sur le gradient stochastique.
Je montrerai que ce système passe a l'échelle et je donnerai notamment des résultats sur un sous-ensemble de 9 millions d'images et de 10,000 classes d'ImageNet. Par rapport a l'état de l'art sur cette base (un système basé sur les sacs de mots visuels) nous rapportons une amélioration relative de 200%: une précision de 19.1% contre 6.4% précédemment.
Le pistage vidéo de personnes
Valérie Leung, ONERA.
Le pistage vidéo de personnes, c'est-à-dire leur détection et suivi temporel cohérent, sont des fonctions fondamentales de la vision pour ordinateur pour de nombreuses applications comme la vidéosurveillance et l'évitement d'obstacles dans un environnement dynamique. Il constitue également une entrée privilégiée pour les processus de haut niveau tel que l'interprétation de comportement. Cependant, la construction robuste de pistes de longue durée demeure difficile du fait de sources de nuisance multiples à contrer (occultations, interactions entre personnes, déformations, apparences non discriminantes...) auxquelles se rajoutent des contraintes d'exécution temps réel.
Nous présentons dans cet exposé une chaîne de pistage longue durée pour laquelle une attention particulière a été portée pour régler un compromis entre la performance et le temps de calcul. Elle s'appuie sur trois composantes, dont les deux premières tournent à la cadence vidéo sur une architecture standard :
- Un processus de détection de personnes par accumulation multi vue;
- Un algorithme de pistage multi hypothèse capable de gérer les occultations de courte durée;
- Un procédé d'association longue durée décrit dans le formalisme des Réseaux Logiques de Markov ("Markov Logic Network") et permettant de gérer des configurations spatio temporelles complexes.
Son utilisation pour l'exploitation hors ligne de corpus de vidéo surveillance sera évoquée.
Ce travail a été réalisé dans le cadre du projet européen SUBITO qui vient de se terminer.
Transfert de technologies multimédia pour répondre aux problématiques industrielles
Hervé Le Borgne, CEA-LIST
La mission du CEA LIST est de contribuer au transfert de technologies sur les systèmes à logiciel prépondérant vers les grands acteurs industriels du nucléaire, de l'automobile, de l'aéronautique, de la défense et du médical et favoriser l'innovation notamment par l'émergence de nouvelles entreprises.
A la croisée de l'ingénierie logicielle et de la recherche académique dans le domaine de la vision par ordinateur et du traitement automatique des langues, nous présenterons montrerons comment les technologies multimédia développées répondent aux besoins industriels du domaine, et peut également participer à l'amélioration de systèmes dans les domaines connexes de la sécurité aux personnes et de la vision robotique.
Sans prétendre à l'exhaustivité, nous présenterons la manière dont des briques technologiques de base sont déclinées pour répondre à des applications métier diverses.
L'indexation multimédia : approches et applications dans les services d'accès aux contenus
Sid-Ahmed Berrani, Orange Labs - France Telecom R&D
L'objectif de cet exposé est de présenter les techniques d'indexation automatique de contenus multimédia et leur rôle dans le développement de services d'accès aux contenus. Après une introduction sur les services permettant d'accéder aux contenus multimédia diffusés sur les différents réseaux, nous passerons en revue quelques techniques d'indexation automatiques d'images et de vidéos. Ces techniques seront ensuite étudiées dans le cadre de services tels que la TV à la demande, la TV interactive et la recherche visuelle sur mobile. Pour chacun de ces services, les contraintes applicatives seront présentées et les approches qui nous paraissent les plus prometteuses seront exposées.
Archivage du patrimoine audiovisuel : usages et pistes de recherche
Jean Carrive, Chef de projet Recherche, INA Sup.
L'Ina, Institut national de l'audiovisuel (http://www.ina.fr), assure l'archivage et la valorisation du patrimoine audiovisuel national. Il assure une double mission de valorisation commerciale des fonds audiovisuels publics et de dépôt légal des oeuvres télévisuelles et radiophoniques produites en France, ainsi que des missions de formation et de recherche. En prenant appui sur les pratiques actuelles de documentation, d'indexation et de publication, et dans l'objectif d'une part de moderniser et améliorer les services existants, et d'autre part d'offrir de nouveaux débouchés pour les collections détenues par l'institut, l'exposé présentera des pistes de recherche dans le domaine de l'analyse automatique de contenus vidéos.
Besoins industriels rencontrés en Indexation multimédia
Julien LAW TO, R&D Labs, Exalead.
Exalead® est un fournisseur de logiciels de recherche et d'accès à l'information en entreprise et sur le Web. Sa solution Exalead CloudView est une plate-forme incontournable dans le secteur innovant des Search Based Applications (SBA). La société compte aujourd'hui plus de 300 clients dans le monde, certains leaders dans leur domaine, comme ViaMichelin, American Greetings, GEFCO, Société Générale, Air Liquide ou encore Sanofi Aventis R&D.
De plus en plus de besoins d'indexation de contenus multimédia sont remontés par des clients et intégrateurs, en particulier sur l'image et la vidéo. De par notre présence dans des projets de recherches (ANR, projets Européens, Quaero) l'équipe Labs d'Exalead a pu développer ses propres outils d'indexation d'objet multimédia mais également tester ou intégrer différents modules technologiques issus de start up ou de laboratoire académique. Ces développements et ces tests nous ont permis de mesurer l'écart qui peut exister parfois entre les besoins industriels concrets et les outils disponibles.
Nous présentons ici les besoins en termes de fonctionnalités et de scalabilité rencontrés dans les domaines multimédia.