Vous êtes ici : Accueil » Kiosque » Annonce

Identification

Identifiant: 
Mot de passe : 

Mot de passe oublié ?
Détails d'identification oubliés ?

Annonce

26 mars 2018

[Orange Labs] Localisation de sources par Machine Learning : application à des contenus Ambisoniques


Catégorie : Doctorant


Thèse Localisation de sources par Machine Learning : application à des contenus Ambisoniques F/H.

Contact : Srdan Kitic, srdan.kitic@orange.com.

 

Votre rôle

Votre rôle est d'effectuer un travail de thèse sur : « Localisation de sources par Machine Learning : application à des contenus Ambisoniques »

Contexte global du sujet de thèse et état de l'art

Boostés par les progrès en traitement automatique du langage naturel, les assistants virtuels comme Amazon Echo ou Google Home envahissent le marché domestique, confirmant que l'interface vocale va très certainement devenir « l'interface » pour nos interactions avec les machines. Ces assistants, profitant de l'utilisation de réseaux de neurones profonds, sont en passe de supplanter les requêtes texte pour une foultitude de services : recherche sur internet, lancer des appels, rechercher un correspondant dans son répertoire, dicter un SMS. De son côté, Orange a décidé de ne pas laisser ces acteurs OTT seuls sur ce marché et va proposer, à partir de 2018, à ces clients France, son propre assistant domestique : Djingo.

Si ces majordomes virtuels semblent prometteurs, leur fonctionnement reste contrarié par le challenge de la prise de son en champ lointain qu'impose leur usage : du fait de l'éloignement du locuteur, la réverbération naturelle des lieux et les bruits domestiques apparaissent comme amplifiés et viennent dégrader les performances de moteurs de reconnaissance vocale. Les antennes de microphones qui équipent ces majordomes visent à rehausser le signal vocal en le nettoyant de la réverbération et en atténuant au maximum les interférences. En pratique, les usages montrent que la plage de fonctionnement de ces produits reste limitée aux situations où le signal vocal est prépondérant : à titre d'exemple, l'interaction est impossible si le majordome est posé proche d'une TV.

La prise de son multicanale est un sujet de recherche à Orange Labs. Une thèse en cours traite du filtrage multicanal par apprentissage et montre la valeur ajoutée des réseaux de neurones pour estimer un filtre de rehaussement spatial robuste. En pratique, cela permet d'étendre la plage de fonctionnement à des situations adverses où le bruit est au moins aussi énergétique que la source d'intérêt. La thèse proposée vient compléter la chaîne de traitement en fournissant les informations nécessaires au filtrage, à savoir les débuts et fin de phrase, ainsi que la position au cours du temps des sources sonores. Comme dans une thèse en cours, on couplera une antenne dite ambisonic [1] qui permet d'avoir une représentation polaire de la scène sonore, avec des réseaux de neurones profonds, dont de récentes publications montrent l'efficacité à effectuer des tâches similaires de cartographie [8,9,10].

Pour des informations détaillées sur la mission scientifique et les principales activités associées à cette thèse, référer à la section 3 « Le plus de l'offre ».

Votre profil

Vous êtes titulaire d'un diplôme d'ingénieur ou master en machine learning, traitement du signal, computer science ou mathématique appliquée.

Compétences (scientifiques et techniques) et qualités personnelles souhaitées pour le poste :

Un stage de fin d'études en machine learning, particulièrement à base de deep neural network, est un plus.

Le plus de l'offre

Objectif scientifique - verrous à lever :

La cartographie à partir d'antennes de microphones n'est pas un sujet nouveau : le très fameux GCC-PHAT (pour Generalized Cross-Correlation PHAse Transform) basé sur la différence de temps d'arrivée a vu le jour dès les années 70 [2], et a suscité de nombreuses variantes pour améliorer les performances en présence de bruit et de réverbération. Des méthodes exploitant la formation de voies comme le SRP-PHAT et dérivés [3,4] se sont révélées depuis plus robustes aux conditions acoustiques, mais échouent à détecter des sources simultanées, notamment lorsqu'elles sont proches. A partir des années 2000, la communauté de la séparation aveugle de sources a fourni d'autres méthodes de cartographie, que ce soit à base de clustering de critères spatiaux, généralement dans un domaine temps-fréquence comme l'algorithme DEMIX [5], ou par ICA (pour Independent Component Analysis) et l'utilisation d'ordres supérieurs [6]. Mais toutes ces méthodes nécessitent généralement une grande quantité de données afin de limiter la variance des estimateurs, ce qui les rend difficilement exploitables pour des applications où la latence doit rester faible ; ce qui est le cas pour le majordome virtuel où il est primordial de détecter les débuts de chaque phrase, ou encore le wake-up word en début de chaque requête.

Approche méthodologique-planning :

Dans la thèse proposée, on se propose d'aborder la problématique de la cartographie en couplant les approches classiques, comme l'utilisation d'indices spatiaux ou d'ordres supérieurs, à des techniques d'apprentissage, et notamment du deep learning. Actuellement en pleine expansion (voir par ex. [8,9,10]), la plupart de ces approches traitent le problème de localisation de manière classique par un apprentissage supervisé où la fonction de coût est directement reliée à la localisation. Dans cette thèse, on se propose d'aller plus loin en ciblant des indicateurs de performances comme la latence à la détection, ou le taux de fausses alarmes/bonnes détection, critères particulièrement pertinents pour des applications comme les majordomes virtuels. L‘intégration de ces indicateurs pourra notamment se baser sur des méthodes d'apprentissage profond par renforcement (deep reinforcement learning) [11], qui devrait, on l'espère, mener à des modèles de prédiction plus robustes aux silences (équivalent à une situation de données manquantes), au bruit et à la réverbération.

La thèse s'intéressera à 3 aspects de la localisation : i) l'estimation du nombre de sources dans le mélange. L'estimation de ce paramètre, qui est la plupart du temps un prérequis supposé connu dans les méthodes de localisation voire de séparation [7], reste problématique. ii) l'estimation des directions d'arrivées des sources iii) le suivi des sources soit par des méthodes classiques de type filtrage de Kalman, ou encore par machine learning, approche qui reste à ce jour inexploré par la communauté scientifique.

Une méthodologie envisagée pour cette thèse pourrait être la suivante (à affiner avec le directeur de thèse) :

Entité

Au sein du département « Solutions for Voice and Quality of services », l'équipe « Traitement Parole et Son » est une équipe d'une dizaine de personnes dédiée aux technologies de traitement du signal audio et machine learning, et aborde différents contextes applicatifs : interface homme-machine, compression, spatialisation sonore, conférence audio 3D, VoD, webradio. Elle participe notamment à la recherche et au développement des technologies audio pour les services d'assistant vocal domestique Djingo. Par son expertise, elle contribue à l'établissement et au suivi des normes internationales du domaine (ITU-T, MPEG, 3GPP, IETF).

Qu'est ce qui fait la valeur ajoutée de cette offre ?

Le sujet proposé couplant antenne, audio, et machine learning, est actuellement en pleine explosion, que ce soit dans les milieux académiques ou dans l'industrie (par ex. Google, Amazon) : les connaissances acquises sont une porte d'entrée au monde industriel et académique. Vous bénéficierez de l'expérience de l'équipe en traitement du signal et machine learning, ainsi que des infrastructures et matériel d'Orange pour réaliser les expériences et mesures : chambre sourde, studio, antennes microphoniques. Il aura notamment l'opportunité de publier et de déposer des brevets.

Références

[1] J. Daniel. « Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia. » Thèse de doctorat, Université Paris VI, France, 2000.

[2] C. H. Knapp and G.C. Carter, “The Generalized Correlation Method for Estimation of Time Delay.” IEEE Transactions on Acoustics, Speech and Signal Processing. Vol. ASSP-24, No. 4, Aug 1976

[3] J. H. DiBiase, H. F. Silverman, and M. S. Brandstein, « Robust localization in reverberent rooms ». In M. Brandstein and D. Ward, editors, Microphone Arrays: Techniques and Applications, pages 157-180. Springer-Verlag, 2001

[4] H. Do, H. F. Silverman, and Y. Yu, “A real-time SRP-PHAT source location implementation using stochastic region contraction (SRC) on a large aperture microphone array,” in. IEEE Int. Conf. Acoust., Speech, Signal Process., 2007

[5] S. Arberet, R. Gribonval, F. Bimbot. « A robust method to count and locate audio sources in a multichannel underdetermined mixture. » IEEE Transactions on Signal Processing, 2010

[6] M. Baqué, A. Guérin, and M. Melon, « Separation of direct sounds from early reflections using the entropy rate bound minimization algorithm. » In AES 60th Conference on Dereverberation and Reverberation of Audio, Music, and Speech, 2016

[7] D. Fitzgerald, A. Liutkus, and R. Badeau, “Projection-based demixing of spatial audio,” IEEE/ACM Trans. Audio, Speech, Language Process., 2016

[8] S. Chakrabarty and E.A.P. Habets. “Broadband DOA Estimation Using Convolutional Neural Networks Trained with Noise signals”, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), USA, 2017.

[9] R. Takeda, and K. Kazunori. "Sound source localization based on deep neural networks with directional activate function exploiting phase information." Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on. IEEE, 2016.

[10] X. Xiao, S. Zhao, X. Zhong, D.L. Jones, E.S. Chng, H. Lee. ”A learning-based approach to direction of arrival estimation in noisy and reverberant environments”, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015 (pp. 2814-2818).

[11] K. Arulkumaran, M.P. Deisenroth, M. Brundage, and A. A. Bharath. "Deep Reinforcement Learning: A Brief Survey." IEEE Signal Processing Magazine 34.6 (2017): 26-38.

 

Dans cette rubrique

(c) GdR 720 ISIS - CNRS - 2011-2018.