Vous êtes ici : Accueil » Kiosque » Annonce

Identification

Identifiant: 
Mot de passe : 

Mot de passe oublié ?
Détails d'identification oubliés ?

Annonce

19 octobre 2020

Adaptation de domaine de la localisation de sources par deep learning, dans le respect de la vie privée


Catégorie : Stagiaire


Le réhaussement de parole à l’aide d’antennes de microphones est une étape essentielle pour de nombreuses applications, telle que la communication mains-libres lors d’interaction vocale avec des assistants virtuels. Par exemple, dans le contexte des enceintes connectées comme Amazon Echo ou Google Home, la précision de la reconnaissance vocale est fortement dégradée par les signaux enregistrés en champ lointain. En effet, les effets prononcés de la réverbération et des sources interférentes (les bruits comme la télévision, les enfants, les appareils ménagers) affectent la performance des moteurs de reconnaissance vocale.Le rehaussement de parole à partir d’une antenne de microphones exploite le traitement spatial ou beamforming en focalisant dans la direction de la source souhaitée, tout en atténuant les autres directions [1].Par conséquent, estimer la direction d’un locuteur (c’est la localisation de sources sonores) est un prérequis pour le réhaussement de paroles par beamforming, et représente une étape importante dans la chaîne de traitement d’une antenne de microphones.

A noter que, au-delà du beamforming, la localisation de sources sonores trouve de nombreuses applications dans les domaines du codage audio, de la robotique, de la surveillance électronique et des sonars, pour en citer quelques-uns.

Contact : srdan.kitic@orange.com

 

Les méthodes traditionnelles de localisation souffrent grandement de la présence de bruit et/ou de réverbération [2]. Récemment, les approches par réseaux de neurones profonds (alias « deep neural networks »), bien qu’entraînés sur des données synthétiques, ont montré une grande robustesse à des conditions acoustiques adverses [3] [4]. Pourtant, la précision des modèles dans des conditions acoustiques jamais rencontrées (c’est-à-dire celles trouvées chez l’utilisateur final) est bien inférieure à la performance dans les conditions d’entraînement du modèle.

Dans le but d’améliorer ces performances, les modèles pourraient être réentraîné en rapprochant la distribution de l’ensemble d’entraînement avec la distribution des données du domaine cible, comme cela est souvent proposé dans la littérature de l’adaptation de domaine (par exemple [5]). Malheureusement, de telles approches ne sont pas faisables dans le contexte considéré ici. D’une part, opter pour un entraînement local à l’appareil de l’utilisateur en lui envoyant de grande quantité de données labéllisées n’est généralement pas possible à cause des contraintes de bande passante et de complexité. D’autre part, renvoyer les données du domaine cible sur le cloud pose des problèmes d’atteinte à la vie privée. Idéalement, le modèle devrait être affiné localement, en utilisant seulement les données du domaine cible.

Ainsi, l’objectif de ce stage est d’investiguer les moyens d’effectuer une adaptation de domaine non-supervisée sans avoir un accès direct aux données d’apprentissage initiales. Pour ce faire, le stagiaire exploitera les propriétés intrinsèques des signaux ambisoniques, un format audio beaucoup utilisé pour une représentation fidèle du champ sonore spatial [6].

Bibliographie

[1]

S. Gannot, E. Vincent, S. Markovich-Golan and A. Ozerov, "A consolidated perspective on multimicrophone speech enhancement and source separation," IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP) , vol. 4, no. 25, pp. 692-730, 2017.

[2]

C. Evers, H. Loellmann, H. Mellmann, A. Schmidt, H. Barfuss, P. Naylor and W. Kellermann, "The LOCATA Challenge: Acoustic Source Localization and Tracking," IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2019.

[3]

S. Adavanne, P. Archontis, N. Joonas and T. Virtanen, "Sound event localization and detection of overlapping sources using convolutional recurrent neural networks," IEEE Journal of Selected Topics in Signal Processing, vol. 1, no. 13, pp. 34-48, 2019.

[4]

L. Perotin, R. Serizel, E. Vincent and A. Guérin, "CRNN-based multiple DoA estimation using acoustic intensity features for Ambisonics recordings.," IEEE Journal of Selected Topics in Signal Processing , vol. 1, no. 13, pp. 22-33, 2019.

[5]

N. Courty, R. Flamary, A. Habrard and A. Rakotomamonjy, "Joint distribution optimal transportation for domain adaptation," Advances in Neural Information Processing Systems, pp. 3730-3739, 2017.

[6]

F. Zotter and F. Matthias, Ambisonics: A practical 3D audio theory for recording, studio production, sound reinforcement, and virtual reality, Springer Nature, 2019.

Dans cette rubrique

(c) GdR 720 ISIS - CNRS - 2011-2020.