Annonce

Les commentaires sont clos.

Tracking de sources sonores par une antenne sphérique et réseaux de neurones profonds

3 Novembre 2021


Catégorie : Post-doctorant


Dans la thématique du traitement d’antenne acoustique, la localisation des sources sonores est généralement un pré-requis à un certain nombre de fonctionnalités comme le rehaussement ou la séparation de sources. De récents travaux de thèse de Pierre-Amaury Grumiaux sur la localisation ont montré toute la pertinence des réseaux de neurones profonds pour compter et localiser jusqu’à 5 sources simultanées. Cependant, ces observations de position sont non-labellisées, bruitées, et peuvent être de simples fausses-alarmes. Aussi, avant de pouvoir interfacer ces observations de position avec un algorithme de séparation de sources, il est nécessaire d’associer ces positions « brutes » à des sources réelles : i.e. décider si c’est une vraie observation (détection), et le cas échéant déduire de cette observation une position vraisemblable. C’est le rôle du tracking ou suivi de sources, sujet de ce post-doc.

 

La mission du post-doc sera de développer et d’évaluer plusieurs versions de tracker. Le tracker qui servira de référence est l’algorithme TRAMP développé par notre équipe : basé sur le filtrage particulaire, il n’exploite que les données brutes de localisation pour effectuer le suivi de trajectoire [2]. Sur le même principe, le premier tracker à développer sera basé sur des filtres PHD « Probability Hypothesis Density » [3] qui ont l’avantage, via une formalisation probabiliste Bayesienne, de gérer simultanément la détection et la localisation à partir de données bruitées et/ou manquantes.

Dans un deuxième temps, on désire aborder des approches de tracking par réseau de neurones. Sur ce point, bien que la littérature sur le suivi d’objets visuels soit très fournie, elle reste encore très restreinte concernant celui des sources sonores. L'idée principale sera de renforcer le tracking en exploitant la signature spectrale des sources sonores. Le principe consistera à extraire via un réseau de neurones profond, des embeddings propres à chaque source qui, couplés aux positions brutes, aideront à robustifier les trajectoires : on pourra par exemple s’inspirer des «x-vector» qui ont prouvé leur efficacité en reconnaissance et discrimination de locuteurs [4]. En parallèle, une piste complémentaire sera d’apprendre, également par un DNN, la fonction de distance utilisée par le tracker pour ces données augmentées : en effet, si la distance « sur le grand cercle » ou orthodromique est une distance naturelle pour des données de position sur la sphère, la distance entre signatures spectrales et/ou positions reste à définir.

 

La validation se fera sur des scènes labellisées synthétiques de sources fixes et mobiles (ces scènes pourront être créées grâce au logiciel ICARE de synthèse d’acoustique de salle), ainsi que sur quelques scènes réelles qu’il faudra enregistrer à l’aide de microphones sphériques (Zylia ZM-1 et Zoom H3-VR)

 

Planning prévisionnel :

  1. Implémentation tracker PHD (T0->T0+4 mois)
  2. Génération d’une de base de données de scènes complexes avec logiciel ICARE (T0->T0+4 mois)
  3. Evaluation des méthodes développées et comparaison avec l’état de l’art (T0+4->T0+5 mois)
  4. Etat de l’art sur la génération d’embeddings par DNN adaptés au tracking (T0+5->T0+6 mois)
  5. Apprentissage de DNN adaptés au tracking (T0+6->T0+12 mois)
  6. Documentation, publications, brevets (selon l’avancement)

 

Ce post-doc se situe donc à la frontière du traitement du signal audio et des réseaux de neurones profonds. Si l’application concerne le suivi de sources, l’expérience acquise pourra être valorisée dans de nombreux domaines en vogue, comme la reconnaissance de locuteurs, la diarisation, la séparation de sources, qui font l’objet d’activité de recherche soutenue, que ce soit dans le milieu universitaire ou chez les GAFAM.

Candidature :

A réaliser sur le site https://orange.jobs/site/fr-home/

 

Contact

Alexandre GUERIN

mail: alexandre.guerin@orange.com

tel: +33688637594

 

Références

[1] P.A. Grumiaux, S. Kitic, L. Girin, and A. Guérin, “Improved feature extraction for CRNN-based multiple sound source localization,” in Proc. Europ. Signal Process. Conf. (EUSIPCO), Dublin, Ireland, 2021, https://arxiv.org/abs/2105.01897

[2] S. Kitic, A. Guerin « TRAMP: Tracking by a Real-time AMbisonic-based Particle filter », LOCATA Challenge, 2018, https://arxiv.org/abs/1810.04080

[3] B.T. Vo, B.N. Vo, « Labeled Random Finite Sets and Multi-Object Conjugate Priors”, IEEE Transactions on Signal Processing, 2013https://ieeexplore.ieee.org/abstract/document/6507656

[4]. D. Snyder, D. Garcia-Romero, G. Sell, D. Povey and S. Khudanpur, "X-Vectors: Robust DNN Embeddings for Speaker Recognition," 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018.https://www.danielpovey.com/files/2018_icassp_xvectors.pdf