Annonce

Les commentaires sont clos.

Analyse multimodale de l'émotion appliquée à la médecine gériatrique

27 Novembre 2021


Catégorie : Stagiaire


 

Lieu de stage: Laboratoire IBISC (EA 4526), équipe SIAM, Univ. Evry/Paris-Saclay
Salaire et perspectives : environ577,50 euros/month. Possibilité de continuer en thèse avec un financement de 3 ans
Contact: Dominique Fourer <dominique.fourer@univ-evry.fr>, Liliana Audin-Garcia <lgarcia@ensc.fr> (transmettre CV, notes de M1/M2 et lettres de recommandation)

mots-clés : traitement du signal et des images, analyse/synthèse des émotions, deep learning

Profil recherché:

  • Bonnes connaissances en apprentissage automatique et en traitement du signal
  • Notions de base en mathématiques permettant une compréhension des concepts formels
  • Bon niveau en programmation (matlab, python, C/C++)
  • Bonne motivation, haute productivité, travail méthodique
  • Un intéret pour l'IA est un plus

 

Résumé : « Humanitude » est une technique de soin généralisée par Gineste et Marescotti [4, 5] qui repose sur des compétences de communication optimales dans les établissements de soins pour personnes âgées. Cette approche basée sur la communication affective entre les professionnels de santé et les patients âgés a réussi à améliorer les capacités cognitives des personnes fragiles hospitalisées dans le cadre de soins de santé en EHPAD. Cette méthode fait actuellement l'objet d'une étude dans le cadre du projet MSH-HUMAVOX qui vise à mieux comprendre pourquoi cette approche peut améliorer significativement la qualité de vie et réduire les troubles du comportement associé à l'état de sénilité.

Le travail proposé se concentre sur l'analyse du signal de parole audio éventuellement combiné avec la vidéo qui a montré sa capacité à transmettre des informations pertinentes sur l'émotion et les codes socio-culturels indépendamment du contenu sémantique [10, 3]. L'objectif de ce stage est de proposer des méthodes multimodales d'analyse-synthèse innovantes permettant pour reconnaître les émotions des enregistrements audio de la parole en utilisant des informations supplémentaires disponibles telles que la vidéo.

 

Objectifs :

-Étude bibliographique pour identifier les meilleures méthodes de l'état de l'art pour la reconnaissance et la synthèse multimodale de la parole affective.

-Mise en œuvre de nouvelles techniques d'analyse audiovisuelle de la parole

-Identification et interprétation des descripteurs audiovisuels pertinents pour les émotions

Methodologie :

Le point de départ de cette étude correspond à nos travaux antérieurs basés sur l'analyse prosodique des attitudes socio-culturelles qui ont montré la pertinence de plusieurs paramètres acoustiques tels que la trajectoire de la fréquence fondamentale (F0), l'intensité et la durée des phonèmes estimés [2, 11, 3]. La présente étude considérera des travaux plus récents pour la parole et la vidéo appliquées à la reconnaissance des émotions [6, 8] et utilisant les réseaux de neurones convolutifs. Le but est de découvrir des caractéristiques supplémentaires (ou unités cachées) présentes dans les enregistrements qui transmettent des informations pertinentes sur les informations émotionnelles contenues dans le discours (par exemple, la qualité de la voix, etc.) . À cette fin, nous prévoyons de concevoir de nouvelles techniques d'apprentissage automatique éventuellement combinées à des représentations temps-fréquence utilisées comme entrée d'un réseau de neurones profonds [7].

Nous définirons la meilleure architecture (eg. réseaux de neurones convolutifs récurrents, Res-U-net ou wavenet [9]) en termes de précision, d'interprétabilité et d'adaptabilité par une évaluation comparative avec l'état de l'art [1]. Notre étude, aura une considération particulière pour les models d'attention qui ont montré leur supériorité par rapport aux méthodes classiques par leur capacité à se concentrer sur régions d'intérêt de l'entrée dans un grand nombre de tâches de prédiction [12] tout en permettant une meilleure interprétation des modèles appris.

Enfin, nous appliquerons les futures méthodes sur des données réelles collectées dans le projet MSH « Humavox » en utilisant la taxonomie émotionnelle « Humanitude » et nous développerons un prototype logiciel permettant de prédire le contenu émotionnel d'un signal de parole et de synthétiser un signal de parole avec une émotion cible par la transformation d'un signal de parole source avec une émotion neutre.

References:
[1] Min Chen, Yixue Hao, Kai Hwang, Lu Wang, and Lin Wang. Disease prediction by machine learning over big data from healthcare communities. IEEE Access, vol 5, pages: 8869-8879, 2017.

[2] Carl Doersch. Tutorial on variational autoencoders. arXiv preprint arXiv :1606.05908, 2016.

[3] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Advances in neural information processing systems, pages: 2672-2680, 2014.

[4] Bharath Raj. Data augmentation | how to use deep learning when you have limited data.
https://medium.com/nanonets/how-to-use-deep-learning-when-you-have-limited-data-part-2-data-augmentation-c26971dc8ced.
Accessed : 18 septembre 2018.

[5] George Seif. Deep learning for image recognition : why it's challenging, where we've been, and what's next.
https://towardsdatascience.com/deep-learning-for-image-classi