Vous êtes ici : Accueil » Réunions » Réunion

Identification

Identifiant: 
Mot de passe : 

Mot de passe oublié ?
Détails d'identification oubliés ?

Journée de l'AS Visage, geste, action et comportement

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Inscriptions closes à cette réunion.

Inscriptions

46 personnes membres du GdR ISIS, et 28 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 144 personnes.

Instructions pour une demande de mission par le GdR ISIS

Le GdR ISIS prend en charge les déplacements des organisateurs des réunions et des orateurs. Le GdR prend aussi en charge les déplacements des participants aux réunions membres d'un laboratoire adhérent du GdR dans la limite d'un doctorant et d'un permanent par laboratoire académique et par réunion, ou d'une personne par adhérent du club des partenaires et par réunion.

La plus grande partie du budget du GdR ISIS est consacrée à la prise en charge de ces missions. Pour que le GdR puisse financer le plus grand nombre de réunions, les participants à ces réunions sont vivement incités à choisir les billets les moins chers. Seuls les billets de train ou d'avion en deuxième classe, non échangeables et non remboursables sont pris en charge. Le GdR se réserve le droit de refuser une demande de billet dont le prix excède la moyenne des prix couramment pratiqués pour le trajet de la mission.

Pour le transport et pour l'hébergement, vous êtes priés d'utiliser le portail SIMBAD du CNRS si vous en avez la possibilité. Cela est en particulier obligatoire si vous êtes membre d'une unité CNRS (UPR, UMR, UMI, URA, FRE). Les réservations d'hôtel sont possibles si la réunion dure plus d'une journée ou si le lieu d'habitation le justifie. Dans le cas où le laboratoire n'est pas une unité CNRS, merci d'envoyer votre demande de prise en charge de la mission à l'adresse DR01.SoutienUnites@cnrs.fr en précisant que la mission relève du GdR ISIS. Si vous utilisez votre véhicule personnel pour une distance supérieure à 300 kilomètres (aller+retour), le GdR ISIS ne rembourse pas vos frais de transport.

Les demandes de mission et les réservations sur le site SIMBAD doivent impérativement être effectuées au moins deux semaines avant la date de la mission.

Aucun remboursement de frais de transport ou d'hôtel avancés par l'agent ne peut plus être effectué au retour de la mission.

Annonce

La prochaine réunion de l'AS Visage, geste, action et comportement aura lieu mardi 15 novembre 2016 à Paris (Télécom ParisTech, 46 rue Barrault, Amphi B310) de 9 h a 17 h.

La journée sera composée de 8 présentations orales et 10 posters (voir programme ci-joint).

Elle est ouverte à toutes et à tous. L'inscription est obligatoire. Venez nombreux.

Programme

La journée sera composée de deux sessions d'exposés (9h30-11h30 et 15h-17h)
et deux sessions de posters (11h30-12h30 et 14h-15h).
La durée prévue pour chaque exposé est de 20 minutes + 10 minutes de questions.
9 h 00 Accueil
9h 30 Modélisation du sentiment du geste artistique
Eric Bittar et Olivier Nocent
CReSTIC-UTILE Université de Reims Champagne-Ardenne
Contact: Eric.Bittar@univ-reims.fr

10 h Reconnaissance temps-réel et multi-utilisateur de gestes techniques par suivi des mains
Eva Coupeté, Sotiris Manitsaris et Fabien Moutarde (centre de Robotique, Mines ParisTech, PSL Reaserch University)
Contact: eva.coupete@mines-paristech.fr

10 h 30 Controle d'un robot mobile par le geste
Marc Dupont
thèse CIFRE (3e année) avec l'IRISA et Thales.
Contact: marc.dupont@univ-ubs.fr

11 h DAily Home LIfe Activity Dataset : Un jeu de
donnee a haut niveau semantique pour la
reconnaissance d'activites
Geoffrey Vaquette, CEA
Contact: geoffrey.vaquette@cea.fr


11 h 30 POSTERS

12 h 30 REPAS

14 h POSTERS

15 H High-Level Geometry-based Features of Video Modality for Emotion Prediction
Raphaël Weber, Vincent Barrielle, Catherine Soladié, Renaud Seguier, Equipe FAST, CentraleSupelec/IETR
Contact: raphael.weber@centralesupelec.fr

15 h 30 Analyse du geste sportif
Marion Morel
Doctorante en 3ème année au laboratoire ISIR - UPMC
Contact: marion_morel@live.fr

16 h 00 Des signaux sociaux aux attitudes : de l'utilisation des règles d'association temporelle
Thomas Janssoone, ISIR, équipe Greta
Contact: thomas.janssoone@gmail.com


16 h 30 Caractérisation et la reconnaissance d'activités humaines dans des vidéos
Renaud PETERI et Laurent MASCARILLA, Université de La Rochelle
Contact: renaud.peteri@univ-lr.fr

17 H CLOTURE
Liste des posters présentés de 11h30 a 12h30 puis 14h a 15h

  1. Covariance de caractéristique pour la reconnaissance de gestes
Alexandre Perez
PhD student ETIS / Ausy Expertise et Recherche

  1. Manipulation virtuelle des représentations 3D d'objets culturels
Ammar Ahmad, Univ. Bourgogne
Poster, Ammar.Ahmad@u-bourgogne.fr

  1. Reconnaissance d?expressions corporelles à partir d?un squelette 3D animé.
Arthur Crenn, LIRIS, Lyon
Contact: crenn.arthur@gmail.com

  1. Improving speaker diarization of TV series using talking-face detection and clustering
Hervé Bredin (LIMSI, CNRS, Université Paris-Saclay) et Grégory Gelly (LIMSI, CNRS, Université Paris-Sud)
Contact: bredin@limsi.fr
  1. Caractérisation des attitudes dramatiques audiovisuelles
Adela Barbulescu, Equipe IMAGINE, INRIA et Université Grenoble Alpes
Contact: adela.barbulescu@inria.fr
  1. Reconnaissance de visages 3D en utilisant des descripteurs de covariance.
Alid Hariri, Ph.D student,
ETIS, ENSEA, Univ Cergy-Pontoise, CNRS
  1. An experimental approach to study the physiology of natural social interactions
Thierry Chaminade, PhD
Institut de Neurosciences de la Timone
UMR 7289 CNRS-AMU Marseille
  1. Reconnaissance acoustique des émotions par réseaux de neurones récurrents: Application à l'interaction pédagogique en classe.
    Leila KERKENI, Laboratoire d'Acoustique de l'Université de Maine (LAUM). Contact: kerkeni.leila@gmail.com
  1. Estimation de la pose du visage par imagerie thermique pour les applications automobiles
Samuel Bole, PhD student, Renault / DEA ? SAR /Amont ADAS Man?uvre et Environnement
Contact: samuel.bole@renault.com
  1. Descripteur du mouvement humain pour l'étude de la marche
Margarita Khokhlova, Le2i, Dijon
Contact: margokhokhlova@gmail.com

Résumés des contributions

Présentations orales (20 minutes d'exposé et 10 minutees de questions)

1. Modélisation du sentiment du geste artistique

Eric Bittar et Olivier Nocent

CReSTIC-UTILE Université de Reims Champagne-Ardenne

Contact: Eric.Bittar@univ-reims.fr

Résumé : Un certain nombre de disciplines (danse, musique, théâtre, arts corporels internes) ont vocation à exprimer le sentiment par le corps. L'attitude d'une personne est composée d'un ensemble d'éléments dont certains sont internes : l'intention, les pensées, le ressenti, et d'autres externes, visibles : les expressions du visage, les paroles, les gestes et les mouvements du corps entier.

Il s'agit de modéliser le vécu attitudinal interne, le corréler aux composantes visibles, et traduire le tout en une représentation perceptible et sensible, avec la question de l'évaluation de l'impact de l'approche.

Nous orientons notre travail sur la conception d'un dispositif d'augmentation des perceptions. Ce dispositif s'appuie sur des périphériques d'acquisition permettant de collecter des informations diverses par leur nature : mouvements, respiration, rythme cardiaque, température corporelle, influx nerveux, qui sont en fait complémentaires car issues d'un même phénomène.

Ces informations, une fois corrélées et traitées, sont restituées sous la forme d'une augmentation. Celle-ci peut-être visuelle, auditive ou kinesthésique de façon à atteindre plusieurs sens. De manière conceptuelle, ce dispositif fonctionne comme un « hub synesthésique » alimenté par les sensations et autres éléments attitudinaux internes ainsi que par les éléments externes, retranscrits sous forme de percepts.

Les enjeux sont de quantifier et rendre perceptibles des phénomènes subjectifs : émotions, ressentis corporels, beauté du geste, et qualité technique de celui-ci.

Les applications de ces enjeux, porteuses d'innovation, sont significatives, notamment

2. Reconnaissance temps-réel et multi-utilisateur de gestes techniques par suivi des mains ?

Eva Coupeté, Sotiris Manitsaris et Fabien Moutarde (centre de Robotique, Mines ParisTech, PSL Reaserch University)

Contact: eva.coupete@mines-paristech.fr

Résumé : Les robots collaboratifs sont de plus en plus présents dans nos vies quotidiennes. En milieu industriel, ils sont une solution privilégiée pour rendre les chaînes de montage plus flexibles, rentables et diminuer la pénibilité du travail des opérateurs. Pour permettre une collaboration fluide et efficace, les robots doivent être capables de comprendre leur environnement, en particulier les actions humaines. Il faut donc concevoir et mettre au point pour ces robots collaboratifs un système de reconnaissance de gestes techniques, temps-réel et suffisamment robuste, afin que le robot puisse se synchroniser avec l'opérateur, adapter son allure et comprendre si quelque chose d'inattendu survient.

Nous présentons une approche et une méthodologie permettant d'atteindre cet objectif. Nous avons décidé d'utiliser un capteur non-intrusif afin de minimiser la gêne des opérateurs : une caméra de profondeur, positionnée avec une vue de haut pour limiter au maximum les occultations des parties du corps effectuant les gestes techniques. Nous avons mis au point un algorithme de localisation et de suivi des mains afin de faire une reconnaissance temps-réel et continue de gestes, basée sur des Chaînes de Markov Cachées (HMM), en prenant en entrée les positions 3D des deux mains. Nous avons également utilisé des informations complémentaires provenant de capteurs inertiels fixés sur les outils pour affiner nos reconnaissances. Nos expérimentations sur un prototype réel de poste collaboratif de chaînes de montage automobiles montrent que notre système permet d'obtenir 90% de reconnaissances correctes en temps réel pour 13 opérateurs.

Nous préciserons en outre dans l'exposé la façon dont nous avons choisi les "features" (suivi des mouvements 3D des mains), qui montre que la robustesse de reconnaissance est meilleure en ignorant les informations de posture générale de l'opérateur (tête, torse, bras), qui ont une plus grande variabilité d'une répétition à l'autre et entre opérateurs. Enfin, nous détaillerons l'étude que nous avons menée pour obtenir une bonne reconnaissance multi-utilisateurs. Celle-ci indique qu'il est préférable pour un nouvel opérateur d'utiliser une base d'apprentissage multi-utilisateurs enrichie de quelques enregistrements du nouvel utilisateur, plutôt que de personnaliser totalement la reconnaissance pour chaque utilisateur en constituant une base spécifique à chacun.

3. Controle d'un robot mobile par le geste ?

Marc Dupont, thèse CIFRE, IRISA et Thales.

Contact: marc.dupont@univ-ubs.fr

Résumé : L'essor de la robotique ces dernières années pousse les industriels à innover dans le domaine du contrôle des robots mobiles. Dans cette présentation, nous abordons un cas d'utilisation très spécifique: celui du pilotage d'un robot à chenilles, en contexte militaire. Le scénario cible est celui d'un fantassin en opération, dont la mission est déjà complexe; il faut alors que le contrôle du robot soit le plus intuitif et naturel possible, afin de lui ôter toute charge cognitive superflue.

Pour ce faire, nous avons développé une technique de reconnaissance gestuelle par gant de données. Chaque classe de geste correspond exactement à une commande: "avancer", "stop", "plus vite", ... Ces gestes sont reconnus en temps réel afin de permettre un pilotage immédiat du robot.

D'une part, sur le plan matériel, nous avons développé un gant spécialement conçu pour être utilisé sur le terrain, intégrant des capteurs spécifiques (IMU et flexion). D'autre part, notre contribution algorithmique prend la forme d'une chaîne de reconnaissance gestuelle en flux. Un nouvel utilisateur peut enseigner ses gestes au système en quelques minutes et la convergence du modèle ne nécessite aucun temps d'attente, offrant à l'utilisateur un retour direct pendant cette phase d'apprentissage supervisé. Une fois l'apprentissage terminé, le système est directement utilisable sur le terrain.

Les approches récentes en apprentissage automatique (voix, traitement du langage naturel, image...) tirent parti de jeux de données très larges permettant la convergence de modèles complexe tels que des réseaux de neurones profonds. Toutefois, dans notre cas ces techniques sont difficiles à mettre en oeuvre, car les jeux de données sont extrêmement épars: une classe peut être représentée par une ou deux instances seulement, un phénomène que nous appelons "small data" et qui influe grandement sur le choix du modèle.

Afin de résoudre ce problème, la reconnaissance est effectuée grâce au calcul de distances entre séries temporelles (adaptation de DTW en flux). Ainsi, l'espace d'entrée est peu limité et donc riche en expressivité gestuelle, permettant à l'utilisateur de concevoir ses propres gestes pour l'apprentissage; et ce, même si le nombre d'instances est très faible.

4. DAily Home LIfe Activity Dataset : Un jeu de donnee a haut niveau semantique pour la reconnaissance d'activites

Geoffrey Vaquette, CEA

Contact: geoffrey.vaquette@cea.fr

Résumé : Dans un contexte applicatif de type smart-home ou video-surveillance, nous mettons à disposition de la communautée scientifique un nouveau jeu de données adapté à la reconnaissance en ligne d'activités.

Ce jeu de données a été acquis à l'aide de 3 capteurs de type Kinect v2 dans un environnement réaliste (une cuisine) et contient les couleurs, les profondeurs et les squelettes de 51 vidéos non-segmentées. Il se différencie de ceux

déjà existant par la longueur de ses vidéos (39 min en moyenne) et par le niveau sémantique des classes qui le composent. En effet, nous considérons des activités telles que "Prendre son repas" ou "Faire la vaisselle" plutôt que des actions courtes comme "ouvrir un tiroir" ou "prendre une éponge". Afin de répondre au problème de segmentation et reconnaissance d'activités humaines, nous utilisons l'algorithme DOHT (Deeply Optimized Hough Transform) qui a fait ses preuves pour cette tâche. Nous avons adapté cet algorithme pour l'appliquer à différents

types de données provenant de plusieurs sources. Nous présentons nos résultats sur le jeu de données DAHLIA.

5. High-Level Geometry-based Features of Video Modality for Emotion Prediction?

Raphaël Weber, Vincent Barrielle, Catherine Soladié, Renaud Seguier, Equipe FAST, CentraleSupelec/IETR

Contact: raphael.weber@centralesupelec.fr

Résumé : Nous proposons d'inférer un état émotionnel à partir de données multimodales bas-niveau en incluant pour la modalité vidéo des descripteurs géométriques haut-niveau. Ce travail a eu lieu dans le cadre du challenge « Audio/Visual Emotion Challenge » (AVEC 2016), dont le but est de prédire les dimensions émotionnelles continues, que sont arousal et valence, à partir de données multimodales (vidéo, audio et physiologique). La représentation arousal/valence est issue des psychologues, où arousal va rendre compte de l'activité du sujet et valence d'un état émotionnel plus ou moins positif.

Nous proposons deux contributions. La première est d'utiliser pour la prédiction d'émotion des descripteurs géométriques haut-niveau de la modalité vidéo (une estimation de la pose de la tête et une représentation invariante des expressions faciales). La seconde est la fusion des prédictions uni-modales apprises séparément sur chaque sujet d'apprentissage, ce qui permet de pondérer l'importance relative de chaque sujet d'apprentissage dans la prédiction uni-modale.

6. Analyse du geste sportif

Marion Morel, Doctorante en 3ème année au laboratoire ISIR - UPMC

Contact: marionmorel@live.fr

Résumé : Un geste sportif requiert une coordination des membres et une précision spatiale complexe qu'il est difficile d'atteindre. Les coachs sportifs sont là pour donner les clés à l'athlète pour améliorer sa technique. Pour autant, le coach n'est pas infaillible et peut passer à côté de certaines erreurs de son élève. Nous proposons ici une évaluation objective de n'importe quel geste sportif individuel de manière automatique à partir d'une base de données de gestes experts uniquement, et aucune connaissance a priori du mouvement. Cet outil innovant n'a pas pour but de se substituer au coach, mais de l'assister dans l'aide à la progression de l'athlète.

Les erreurs spatiales et temporelles du mouvement sont évaluées séparément et identifiées (un bras trop bas à la fin du mouvement ou une jambe trop en avance temporellement par exemple). L'évaluation repose sur l'utilisation d'une déformation temporelle dynamique (DTW) des mouvements experts afin d'extraire un mouvement dit « nominal » qui caractérise le « bon geste ». Une comparaison entre ce geste nominal et le geste novice à évaluer est alors mise en place à tout instant et pour chacun des membres (tronc, bras droit, bras gauche, jambe droite, jambe gauche), à nouveau à l'aide de DTW.

Notre méthode est validée à partir de gestes de karaté et de service de tennis dont les performances sont annotées par des coachs.

7. Des signaux sociaux aux attitudes : de l'utilisation des règles d'association temporelle ?

Thomas Janssoone, ISIR, équipe Greta

Contact: thomas.janssoone@gmail.com

Résumé : L'un des défis actuellement dans le domaine des Agents Conversationnels Animés (ACA) est de leur faire avoir des relations sociales réalistes. Dans cet article, nous présentons nos avancées dans l'élaboration d'un framework capable de trouver des relations entre des signaux sociaux afin d'animer un ACA avec une attitude définie. Le framework SMART, pour Social Multimodal Association Rules with Timing, est basé sur un algorithme de sequence-mining et va trouver des règles d'associations temporelles entre des signaux sociaux extraits automatiques de flux audio-vidéo. Ces règles sont calculées afin de permettre ensuite facilement l'animation d'un personnage virtuel grâce à leur cohérence.

Dans cette présentation, nous formalisons donc notre design du framework SMART et nous justifions son intérêt par plusieurs études. Dans un premier temps, nous montrons que les règles calculées sont bien en accord avec la littérature en psychologie et sociologie. Ensuite, des études de corpus permettant la synthèse d'attitudes pour des ACAs, nous présentons les résultats d'évaluations perspectives que nous avons conduites.

8. Caractérisation et la reconnaissance d'activités humaines dans des vidéos ?

Renaud PETERI et Laurent MASCARILLA, Université de La Rochelle

Contact: renaud.peteri@univ-lr.fr

Résumé : Notre travail porte sur la caractérisation et la reconnaissance d'activités humaines dans des vidéos. L'intérêt grandissant en vision par ordinateur pour cette thématique est motivé par une grande variété d'applications telles que l'indexation automatique de vidéos, la vidéo-surveillance, ou encore l'assistance aux personnes âgées.

Dans la première partie de l'exposé, nous présentons une méthode de reconnaissance d'actions élémentaires basée sur l'estimation du mouvement dans des vidéos. Les points critiques du champ vectoriel obtenu, ainsi que leurs trajectoires, sont estimés à différentes échelles spatio-temporelles. La fusion tardive de caractéristiques d'orientation de mouvement et de variation de gradient, dans le voisinage des points critiques, ainsi que la description fréquentielle des trajectoires, nous permet d'obtenir des taux de reconnaissance parmi les meilleurs de la littérature.

Dans la seconde partie, nous construisons une méthode de reconnaissance d'activités en considérant ces dernières comme un enchainement temporel d'actions élémentaires. Notre méthode de reconnaissance d'actions est utilisée pour calculer la probabilité d'actions élémentaires effectuées au cours du temps. Ces séquences de probabilité évoluent sur une variété statistique appelée simplexe sémantique. Une activité est finalement représentée comme une trajectoire dans cet espace. Nous introduisons un descripteur fréquentiel de trajectoire pour classifier les différentes activités humaines en fonction de la forme des trajectoires associées. Ce descripteur prend en compte la géométrie induite par le simplexe sémantique.

===========

Posters

===========

9. Covariance de caractéristique pour la reconnaissance de gestes ?

Alexandre Perez

PhD student ETIS / Ausy Expertise et Recherche

Contact: alexandre.perez@ensea.fr

Résumé : La reconnaissance d'actions à partir de capteur de profondeur monoculaire est devenue un domaine très actif de recherche ces dernières années, notamment grâce à l'émergence d'appareils de capture à faible budget tels que la Kinect de Microsoft ou la Xtion Pro d'Asus. Ces capteurs permettent de récupérer l'information de profondeur sur les pixels de la vidéo. Ainsi il est possible de capturer un modèle 3D de la scène ce qui permet une reconnaissance plus fiable et plus robuste que ne le permet un capteur RGB d'une caméra classique. De nombreuses applications basées sur la vision artificielle sont devenues populaires dans la recherche et le développement industriel comme les interactions homme-machine, la reconnaissance du langage des signes ou encore la surveillance de comportement.

Malgré le travail important ces dernières années dans le domaine de l'apprentissage automatique de données vision artificielle, la reconnaissance en temps-réel fiable est toujours un challenge. Enfin la conception de tels systèmes, robustes aux données bruitées et à un grand nombre de classes est toujours un problème ouvert.

Nous proposons une nouvelle méthode de reconnaissance de gestes basée sur la covariance de caractéristiques à partir de vidéos de cartes de profondeur. Ces caractéristiques sont ensuite encodées pour former une représentation compacte grâce à leur matrice de covariance et permettre d'apprendre un classifieur. Nous avons évalué les performances de la méthode proposée pour pouvoir la comparer à l'état de l'art sur plusieurs bases de test : MSR Action 3D, MSR Daily Activity et UTKinect-Action.

L'apport principal de la méthode proposée est un ensemble de nouvelles caractéristiques, peu coûteuses en termes de calcul, qui sont extraites des squelettes calculés à partir des cartes de profondeur. Elles ont pour objectifs de capturer les positions relatives des joints ainsi leurs mouvements grâce à des gradients sur les positions des joints du squelette..

10. Manipulation virtuelle des représentations 3D d'objets culturels ?

Ammar Ahmad, Univ. Bourgogne

Contact: Ammar.Ahmad@u-bourgogne.fr

Résumé : Une tendance croissante consiste à étudier la réalité virtuelle au service du patrimoine culturel. Les plus grands musées du monde proposent aujourd'hui à leurs visiteurs différents outils de réalité virtuelle ou augmentée pour une expérience culturelle enrichie. Dans une visite classique d'un musée, les objets culturels exposés ne sont pas accessibles. Les visiteurs ne peuvent pas les toucher ni les manipuler. L'un des apports de la RV est d'offrir une dimension supplémentaire d'interactivité : les visiteurs deviennent des acteurs placés au centre de l'expérimentation virtuelle et capables d'interagir avec les différentes entités culturelles composant l'univers simulé.

Notre projet a pour cadre l'interaction 3D avancée au service des musées du futur. Sa finalité est de permettre aux visiteurs d'un musée une activité sensori-motrice dans un environnement virtuel ou augmenté. La manipulation d'objets dans le monde réel est une tâche commune qui se fait naturellement et inconsciemment et donc sans effort. Cependant, la transposition de cette tâche dans le monde virtuel n'est pas évidente puisqu'elle implique la création des biais sensori-moteurs. Elle nécessite de créer un environnement virtuel interactif qui est interfacé avec les visiteurs. Ceux-ci agissent par l'intermédiaire de leur corps sur cet environnement grâce à l'usage d'interfaces motrices et l'environnement virtuel réagit en retour. L'absence des retours haptiques et tactiles implique la création des artefacts de contraintes durant la préhension et la libération d'objets virtuels : interpénétration visuelle main-objet virtuel, contradiction visuo-proprioceptive, et incrustation de l'objet virtuels. Trois critères majeurs peuvent caractériser la qualité de manipulation virtuelle : la latence, les cohérences sensori-motrices, et la transparence d'interfaçage.

11. Reconnaissance d'expressions corporelles à partir d'un squelette 3D animé.

Arthur Crenn, LIRIS, Lyon

Contact: crenn.arthur@gmail.com

Résumé : Nous nous intéressons à la reconnaissance d'expressions corporelles à partir d'un squelette 3D. A l'inverse de la plupart des méthodes qui se focalisent sur des mouvements spécifiques, notre approche a pour but d'être la plus générique possible afin d'arriver à détecter les expressions corporelles à partir de différents mouvements. A partir d'une séquence de poses 3D, représentées par un squelette, nous extrayons différents descripteurs. Motivés par l'idée de disposer de descripteurs visuels et intuitifs, nous nous sommes inspirés de travaux relevant du domaine de la psychologie. Ces travaux nous ont permis de comprendre le rôle des différentes articulations lors de la perception d'expressions ce qui nous a permis de séparer l'émotion de l'action effectuée. Ainsi, nous proposons deux types de descripteurs : les premiers sont de type géométrique calculés à partir d'articulations spécifiques. Les seconds descripteurs s'appuient sur une analyse du mouvement (vitesse, accélération etc.) et sur une analyse fréquentielle de chaque articulation du corps. Nous avons évalué notre approche sur différentes bases de données hétérogènes, riche en variétés de mouvements et d'expressions. Ces bases de données contiennent des mouvements synthétiques et des mouvements issus de motion capture d'acteurs. Les résultats obtenus sont prometteurs et au moins égaux à ceux de l'état de l'art voire meilleurs sur certains cas.

12. Improving speaker diarization of TV series using talking-face detection and clustering?

Hervé (LIMSI, CNRS, Université Paris-Saclay) et Grégory Gelly (LIMSI, CNRS, Université Paris-Sud)

Contact: bredin@limsi.fr

Abstract: While successful on broadcast news, meetings or telephone conversation, state-of-the-art speaker diarization techniques tend to perform poorly on TV series or movies. In this paper, we propose to rely on state-of-the-art face clustering techniques to guide acoustic speaker diarization. Two approaches are tested and evaluated on the first season of Game Of Thrones TV series. The second (better) approach relies on a novel talking-face detection module based on bi-directional long short-term memory recurrent neural network. Both audio-visual approaches outperform the audio-only baseline. A detailed study of the behavior of these approaches is also provided and paves the way to future improvements.

13. Caractérisation des attitudes dramatiques audiovisuelles

Adela Barbulescu, Equipe IMAGINE, INRIA et Université Grenoble Alpes

Contact: adela.barbulescu@inria.fr

Résumé : Dans ce travail, nous étudions la capacité de paramètres audiovisuels (tels que la fréquence de la voix, le rythme, les mouvements de la tête, des expressions faciales) de discriminer entre les attitudes dramatiques. Nous extrayons les paramètres audiovisuels à partir d'un corpus d'attitudes et nous les structurons comme caractéristiques au niveau de la trame, de la syllabe et de la phrase. En nous basant sur l'analyse discriminante linéaire, nous montrons que les caractéristiques au niveau de la phrase présentent le meilleur taux de discrimination entre les attitudes. Cela confirme l'existence de contours prosodiques au niveau de la phrase, pouvant être utiles en synthèse de la parole visuelle expressive.

14. Reconnaissance de visages 3D en utilisant des descripteurs de covariance.

Walid Hariri, Ph.D student,

ETIS, ENSEA, Univ Cergy-Pontoise, CNRS

Contact: walid.hariri@ensea.fr

Résumé : Dans ce travail, nous proposons une méthode de reconnaissance de visages 3D basée sur les matrices de covariance. Contrairement aux approches classiques, les descripteurs de covariance offrent la possibilité de fusionner plusieurs caractéristiques et modalités dans une seule représentation compacte. Les matrices de covariance forment une variété riemannienne (Symd+). Nous proposons ainsi d'exploiter la distance géodésique définie dans cette variété pour quantifier leurs similarités. Pour comparer deux visages, nous calculons la distance entre leurs paires de régions homologues. Nous avons évalué notre méthode sur deux bases de visages de référence FRGCv2 et GAVAB. Les résultats obtenus démontrent la supériorité de notre méthode comparée à plusieurs méthodes de l'état de l'art.

15. An experimental approach to study the physiology of natural social interactions ?

Thierry Chaminade, Institut de Neurosciences de la Timone

UMR 7289 CNRS-AMU Marseille

Contact: thierry.chaminade@univ-amu.fr

Abstract: The classical experimental methodology is ill-­suited for the investigation of the behavioral and physiological correlates of natural social interactions. A new experimental approach combining a natural conversation between two persons with experimental control conditions is proposed in this paper. Behavior, including gaze direction and speech, and physiology, including electrodermal activity, are recorded during a discussion between two participants through videoconferencing. Control for the social aspect of the interaction is provided by the use of an artificial agent and of videoed conditions. A cover story provides spurious explanations for the purpose of the experiment and for the recordings, as well as a controlled and engaging topic of discussion. Preprocessing entails transforming raw measurements into boxcar and delta functions time series indicating when a certain behaviour or physiological event is present. The preliminary analysis presented here consists in finding statistically significant difference between experimental conditions in the temporal associations between behavioral and physiological time series. Significant results validate the experimental approach and further developments including more elaborate analysis and adaptation of the paradigm to functional MRI are discussed.

16. Reconnaissance acoustique des émotions par réseaux de neurones récurrents: Application à l'interaction pédagogique en classe.

Leila KERKENI, Laboratoire d'Acoustique de l'Université de Maine (LAUM)

Contact: kerkeni.leila@gmail.com

Résumé : La connaissance de l'état émotionnel d'un apprenant durant une session d'apprentissage, est un élément clé pour l'enseignant, dans son choix de la méthode pédagogique la plus pertinente pour aider l'apprenant à accomplir sa tâche d'apprentissage dans des meilleures conditions. Des études ont permis de classifier, selon son impact, les états émotionnels en trois classes: positif, négatif et neutre.

Nous allons utiliser les réseaux de neurones récurrents qui ont récemment connu un gain en popularité dans les communautés d'apprentissage machine et le traitement du signal.

Dans le cadre de la présente recherche, nous envisageons proposer un système de détection des états émotionnels d'un individu et d'un groupe à partir des signaux audio, basé sur des réseaux de neurones récurrents (RNN). Deux bases de données, la base de données en allemand, accessible au public, "Berlin emotional database" et la base de données commerciale en espagnol "INTERFACE", sont employés, pour effectuer des expériences évaluant la classification des émotions.

17. Estimation de la pose du visage par imagerie thermique pour les applications automobiles ?

Samuel Bole, PhD student, Renault / DEA - SAR /Amont ADAS Manoeuvre et Environnement

Contact: samuel.bole@renault.com

Résumé : La connaissance de la position et de l'orientation (la pose) du visage du conducteur couvre un large champ d'applications potentielles dans le secteur automobile. La littérature regroupant les méthodes utilisant un système monoculaire visible est importante. Une des difficultés à gérer est de garantir la fiabilité du système dans un environnement où l'illuminant n'est pas contrôlé. Nous proposons d'utiliser une caméra thermique (bande 8-14 μm) pour alimenter un algorithme de traitement d'images car, dans cet intervalle de longueurs d'onde, l'image d'un être humain est relativement invariante aux conditions d'illuminations.

Concernant les algorithmes de traitements d'image, deux méthodes ont été implémentées. La première utilise des descripteurs locaux tandis que la seconde est basée sur la minimisation d'une fonction de coût portant sur la globalité du visage. Les deux méthodes utilisent une connaissance a priori de la géométrie 3D du visage.

Une caméra thermique basée sur la technologie microbolométrique non-refroidie est utilisée dans ce projet. L'image thermique, issue d'une technologie non-refroidie, évolue en fonction de la température du capteur même si la scène reste inchangée. Une étude sur la fiabilité des algorithmes face aux variations de température de la caméra est également menée.

18. Descripteur du mouvement humain pour l'étude de la marche ?

Margarita Khokhlova, Le2i, Dijon

Contact: margokhokhlova@gmail.com

Résumé : Notre projet consiste en l'analyse et le suivi des déformations du corps humain à partir d'une acquisition par une caméra Kinect. Son objectif est d'obtenir une connaissance approfondie des mécanismes et des fonctions de la marche humaine.

L'analyse du mouvement humain est un sujet primordial notamment dans le domaine médical. Notre objectif est de proposer une nouvelle méthode pour l'évaluation de la démarche clinique, d'extraire automatiquement tous les paramètres de la démarche et d'effectuer la classification entre marche normale et anormale afin de pouvoir reconnaître undysfonctionnement spécifique. Ce projet est réalisé en collaboration avec la société Proteor, spécialisée dans la fourniture d'appareillage de rééducation (corsets et prothèses).

Pour une représentation efficace du corps humain, les données 3D sont préférables. En effet elles forment une représentation très descriptive des formes humaines et suffisamment précise pour notre étude. Les données sur le corps de la personne dans notre cas prennent la forme d'un nuage de points 3D acquis par une camera Kinect. Nous présenterons notre système d'acquisition ainsi que notre proposition de descripteur de la démarche. Ce dernier, basé sur le flux de mouvement dans un cycle de marche, est indépendant de l'apparence physique de la personne. Les indices de mouvement décrits sont représentatifs de certaines maladies

Date : 2016-11-15

Lieu : Amphi B310, TELECOM ParisTech 46 rue Barrault 75013 Paris FRANCE


Thèmes scientifiques :
B - Image et Vision

Inscriptions closes à cette réunion.

(c) GdR 720 ISIS - CNRS - 2011-2018.