Annonce

Les commentaires sont clos.

[Orange Labs] Localisation ambisonique 3D augmentée et renforcée par apprentissage progressif de l'environnement acoustique

16 Juillet 2021


Catégorie : Post-doctorant


Contexte

Les performances de localisation acoustique à partir d'une antenne de microphone continuent de constituer un enjeu pour nombre d'applications d'interaction et/ou communication vocale, et/ou d'immersion sonore. La précision angulaire de la localisation conditionne la qualité de séparation spatiale vis-à-vis de sources perturbatrices et/ou de l'effet de salle, et par conséquent le réhaussement de la voix pour des besoins d'intelligibilité et/ou de reconnaissance vocale. Par ailleurs, une localisation enrichie dimensionnellement (par la distance de la source voire des caractéristiques de l'environnement) apporterait des paramètres utiles à une expérience immersive en réalité virtuelle ou augmentée en 6DoF.

L'environnement de la captation (e.g. une salle) est responsable de trajets acoustiques indirects interférant avec l'onde qui provient directement de la source à localiser. Si ce phénomène est la plupart du temps considéré comme une gêne causant un biais de localisation, des travaux récents ont mis en évidence qu'il contient des informations exploitables pour une variété de cas d'usage : estimation de la distance à la source [1], inférence de la géométrie d'une salle [2], séparation renforcée par des échos [3], ou localisation des sources cachées par un obstacle [4].

On s'intéresse ici à la captation par une antenne acoustique 3D compacte telle qu'un microphone ambisonique, dont on dérive une quantité acoustique utile à la localisation : le vecteur vélocité. En introduisant des moyens d'interprétation d'une nouvelle donnée d'analyse appelée Time Domain Velocity Vector (TDVV), la référence [1] ouvre la voie à une localisation exempte de biais et enrichie par l'estimation de distance de la source et de parois.

L'objectif du post-doc est d'approfondir et concrétiser les solutions algorithmiques des différents problèmes inverses, pour aboutir à un moteur de localisation « au fil de l'eau ». Celui-ci devra apprendre et exploiter progressivement les positions et orientations des réflecteurs acoustiques constituant l'environnement (murs, sol, table, écran…), grâce auxquels il va apporter progressivement plus de précision et de robustesse aux paramètres estimés.

Il s'agit entre autres de formaliser les relations structurelles et le transfert des incertitudes entre paramètres issus du signal analysé et ceux de nature géométrique, d'améliorer l'empreinte du canal acoustique par le TDVV en lui adaptant des procédés d'estimation robuste de Relative Transfer Function [5] (dont le vecteur vélocité est un cas particulier), et/ou de contribuer au développement d'approches novatrices encore non publiées sur l'extraction de paramètres spatiotemporels à partir du TDVV. L'exploration algorithmique pourra s'orienter selon les préférences et domaines d'expertise du post-doctorant.

Une partie expérimentale permettra d'évaluer les performances et ajuster les approches, sur la base de scènes sonores synthétisées artificiellement (simulation d'effet de salle avancée) mais aussi issues de captations réelles.

 

Références:

[1] Daniel, J. and Kitić, S. “Time Domain Velocity Vector for Retracing the Multipath Propagation”, IEEE ICASSP, 2020

[2] Dokmanić, I., Parhizkar, R., Walther, A., Lu, Y. M., & Vetterli, M. “Acoustic echoes reveal room shape”. Proceedings of the National Academy of Sciences, 2013

[3] Scheibler, R., Di Carlo, D., Deleforge, A., & Dokmanic, I. “Separake: Source separation with a little help from echoes”. ICASSP, 2018

[4] Kitić, S., Bertin N., and Gribonval R. "Hearing behind walls: localizing sources in the room next door with cosparsity" ICASSP, 2014

[5] R. Talmon, I. Cohen and S. Gannot . "Relative Transfer Function Identification Using Convolutive Transfer Function Approximation”, IEEE TASLP, 2009

 

Votre profil

Doctorat en traitement / analyse du signal, en particulier audio voire également acoustique, et/ou Machine Learning appliqué à l'audio.

Toute expérience complémentaire à la formation suivie, dans les domaines précédemment cités sera appréciée.

Les approches algorithmiques envisagées étant de natures diverses, celles spécifiquement explorées par le post-doctorant pourront être orientées en fonction de ses compétences et préférences scientifiques. Nous sommes donc intéressés par une gamme de profils dont l'expertise peut se situer avec plus ou moins de pondération entre le traitement du signal et le machine learning, incluant selon les domaines : les méthodes probabilistes, l'optimisation, la résolution de problèmes inverses et/ou le deep learning.

Des compétences et expériences dans les domaines d'application suivants nous semblent des atouts précieux : analyse du signal audio notamment 3D/multi-canal ; si possible, traitement d'antenne ; une bonne appréhension des fondamentaux de l'audio 3D (notamment Higher Order Ambisonics) et de l'acoustique des salles.

Une bonne alliance de rigueur (théorique et expérimentale) et d'esprit pratique est une qualité scientifique souhaitée.

En termes d'outils de simulation numérique, une bonne maîtrise de matlab et/ou Python est requise.

Sur le plan humain, les qualités suivantes sont particulièrement appréciées : enthousiasme, envie de partager, aptitude à communiquer, esprit d'équipe.

 

Veuillez postuler par le site OrangeJobs: https://orange.jobs/jobs/offer.do?joid=101691&lang=FR