Réunion

Les commentaires sont clos.

Bilan TRECVid 2014 et apprentissage profond

Date : 20-03-2015
Lieu : Salle 105, tour 25-26 UPMC- LIP6 site JUSSIEU

Thèmes scientifiques :
  • B - Image et Vision

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.


S'inscrire à la réunion.

Inscriptions

55 personnes membres du GdR ISIS, et 26 personnes non membres du GdR, sont inscrits à cette réunion.

Capacité de la salle : 80 personnes.

Annonce

La journée sera décomposée en deux demi-journées de présentations :

  • (matin) Bilan TRECVid 2014
  • (après-midi) Apprentissage profond (deep learning)

Le consortium IRIM GDR-ISIS participe depuis 2008 au défi international TRECVid. Cette année, 8 équipes ont collaboré dans le cadre d'IRIM pour une participation conjointe sur les tâches d'indexation sémantique (SIN) et de recherche d'instances (INS). Dans le cadre de TRECVid, l'apprentissage profond a été utilisé avec succès pour la première fois en 2013 par l'Université d'Amsterdam. En 2014, plusieurs équipes bien classées sur cette tâche (dont IRIM) ont également utilisé différentes méthodes relevant de l'apprentissage profond. Il nous a donc semblé intéressant de proposer une journée commune visant à aborder différents aspects du deep et des applications possibles au travers du bilan TRECVid 2014.

Le succès impressionnant des méthodes deep ces dernières années, en particulier en classification d'images et en indexation multimédia, repose pour une bonne part sur l'apparition de ressources de calcul très performantes à un coût raisonnable (cartes GPU par exemple) et sur la disponibilité de grandes collections de données annotées, mais tient aussi à des avancées algorithmiques, notamment au travers de la maîtrise des méthodes de rétro-propagation pour des réseaux à grand nombre de couches.

Programme

(Planning indicatif succeptible d'ajustements)

matin Bilan TRECVid 2014

  • 9h15 Accueil/Présentation des résultats de TRECVid 2014, Georges Quénot (LIG)
  • 10h Tâche Instance Search : analyse et avancées, B. Mansencal (LABRI), A. Benoit (LISTIC), J. Benois-Pineau (LABRI)
  • 10h30 Pause
  • 10h50 Discriminative Color Descriptors (CVPR 2013), Rahat Khan, Joost Van de Weijer, Fahad Shahbaz Khan, Damien Muselet, Christophe Ducottet and Cécile Barat (LaHC, Saint-Etienne)
  • 11h10 Video Hyperlinking task at TRECVID 2015, Maria Eskevich (Eurecom)
  • 11h30 Un framework de calcul décentralisé et asynchrone pour l'apprentissage statistique large échelle basé sur des protocoles Gossip, J. Fellus, D. Picard, P. Gosselin (ETIS)

 -------------------------------------------------------------------------------------------------------------

Après-midi Apprentissage profond (deep learning)

  • 14h Présentation du deep learning par Matthieu Cord (LIP6)
  • 14h30 Exposé invité : Learning Music, Images and Physics with Deep Scattering Networks par Stéphane Mallat (ENS)
  • 15h30 Exposé invité : Weakly supervised object recognition with convolutional neural network par Ivan Laptev (INRIA)
  • 16h pause
  • 16h10 Transductive deep hand segmentation, Natalia Neverova (LIRIS/INSA-Lyon), Christian Wolf (LIRIS/INSA-Lyon), Graham W. Taylor (University of Guelph), Florian Nebout (Awabot)
  • 16h30 Learned vs. hand-crafted features for pedestrian gender recognition, G. Antipov, S.-A. Berrani (both from Orange Labs), N. Ruchaud, J.-L. Dugelay (both from Eurecom)
  • 16h50 Apprentissage profond pour la détection et la reconnaissance de texte dans les vidéos, Sonia Yousfi (Orange Labs), Sid-Ahmed Berrani (Orange Labs) Christophe Garcia (LIRIS/INSA-Lyon)
  • 17h10 Object Detection with Weakly Supervised Deep Deformable Part-based Models, Yuxing Tang, Xiaofang Wang, Boyang Gao, Emmanuel Dellandréa, Liming Chen (LIRIS/ECL)

Résumés des contributions

 

Learning Music, Images and Physics with Deep Scattering Networks
Stéphane Mallat (École Normale Supérieure)
Abstract:
Deep convolution networks provide scalable architectures for high-dimensional classification problems. We show that they can reduce intra-class variability by computing large families of multiscale invariants over groups of operators. Invariants to rigid movements, frequency modulations and small diffeomorphisms are obtained by cascading convolutions with wavelet filters on the corresponding group. Applications will be shown for audio signals, image classification and regression of quantum chemistry energies. The role of supervised learning will be discussed.

---------------------------------------------------------------------------------------------------------------

Weakly supervised object recognition with convolutional neural network
Ivan Laptev (INRIA)
Abstract:
Successful methods for visual object recognition typically rely on large image datasets with rich annotation. Detailed image annotation in terms of object bounding boxes or object parts is both expensive and subjective. In this talk we will present a weakly supervised convolutional neural network (ConvNet) that achieves state-of-the-art results without using detailed annotation. In particular, we will show results for object and action recognition in still images where the network learns to recognize and localize objects and human actions without using location supervision at the training time. We show that our weakly-supervised method achieves comparable performance to its strongly-supervised counterpart.