Annonce

Les commentaires sont clos.

Thèse en suivi de sources sonores par antenne microphonique et deep learning

5 Avril 2022


Catégorie : Doctorant


Le but de cette thèse est d’élaborer un système de suivi de sources multiples partiellement, voire totalement à partir de réseaux de neurones profonds, avec pour objectif de disposer d’une chaîne de traitement complète - comptage, localisation et suivi - capable de fonctionner en temps-réel sur un PC standard, voire un processeur embarqué. Le sujet à la frontière du traitement d’antenne et de la reconnaissance vocale, ainsi que l’outil de deep-learning actuellement en pleine expansion, garantissent une reconnaissance de ces travaux, que ce soit dans l’industrie ou le milieu académique.

 

Postulez par https://orange.jobs/jobs/offer.do?joid=111917&lang=FR

 

 

 

Votre rôle

 

Votre rôle consistera à développer des algorithmes basés partiellement ou totalement sur des approches neuronales pour le suivi (tracking) causal et à faible latence de plusieurs sources sonores.

 

Depuis quelques années, la reconnaissance de parole a connu de grands progrès. Néanmoins, la précision de ces transcriptions se dégrade en situation acoustique adverse du fait de la présence de bruit, réverbération et de sources interférentes. Cela implique l’application d’une étape de rehaussement préliminaire, généralement réalisée par traitement d’antenne, étape qui vise à ne garder que les sons venant de la direction de la source d’intérêt. La connaissance de cette direction d’arrivée ou DoA (Direction of Arrival) est un pré-requis à ce type de traitement. Des algorithmes de localisation, SRP-PHAT pour l’un des plus connus, peuvent fournir une estimation de ces DoA. Cependant, ces DoA s’avèrent en pratique bruitées et non labellisées (on ne sait pas quelle source est à l’origine de telle estimée), et sont de fait incompatibles avec le traitement d’antenne qui nécessite des trajectoires cohérentes spatialement et temporellement. Le but du tracker est d’assembler ces observations brutes pour reconstruire les trajectoires.

 

Traquer plusieurs sources en environnement réel est un challenge en soi, reconnu par la communauté scientifique comme en témoignent le challenge « Acoustic source localization and tracking (LOCATA)” [1] ou les nombreuses publications sur le sujet [2]. Il est ambitieux pour plusieurs raisons. Tout d’abord à cause de l’environnement acoustique qui bruite et biaise les observations, voire génère des observations imaginaires de par les réflexions sur les parois. Ensuite à cause de l’intermittence des observations, que ce soit à cause de la nature intermittente des sources elles-mêmes (une source de parole par exemple), ou parce qu’une source peut se trouver, à un moment donné, masquée par une autre plus énergétique. Reconstruire la trajectoire revient à ré-identifier cette source, afin de ne pas créer de label supplémentaire. Enfin, les algorithmes doivent fonctionner de manière causale, i.e. avec très peu, voire aucune information future.

 

Le but de cette thèse est d’élaborer un système de suivi de sources multiples partiellement, voire totalement à partir de réseaux de neurones profonds. Comme point de départ, on utilisera les résultats de la thèse précédente [3] qui prédit, à partir d’une architecture neuronale, le nombre de sources et leurs DoA [3]. En vue d’améliorer le suivi des sources intermittentes, ces données qui pourront être augmentées avec des embeddings de type neuronal utilisés pour la reconnaissance de locuteurs. Dans une étape finale, le système pourra être unifié dans une seule architecture neuronale, permettant un apprentissage de bout-en-bout.

 

[1] https://arxiv.org/abs/1909.01008

 

[2] https://arxiv.org/abs/2109.03465

 

[3] https://arxiv.org/pdf/2107.11066.pdf

 

 

 

Entité

 

L’ambition de la Division Innovation est de porter plus loin l’innovation d’Orange et de renforcer son leadership technologique, en mobilisant nos capacités de recherche pour nourrir une innovation responsable au service de l’humain, éclairer les choix stratégiques du Groupe à long terme et influencer l’écosystème digital mondial.
Nous formons les expertes et les experts des technologies d’aujourd’hui et de demain, et veillons à une amélioration continue de la performance de nos services et de notre efficacité. La division Innovation rassemble, dans le monde, 6000 salariés dédiés à la recherche et l’innovation dont 720 chercheurs. Porteurs d’une vision globale avec une grande diversité de profils (chercheurs, ingénieurs, designers, développeurs, data scientists, sociologues, graphistes, marketeurs, experts en cybersécurité…), les femmes et les hommes de Innovation sont à l’écoute et au service des pays, des régions et des business units pour faire d’Orange un opérateur multiservices de confiance.

Vous serez intégré dans une équipe de recherche à la pointe de l’innovation et de l’expertise sur le traitement du signal audio et vidéo. Côté audio, l’équipe est composée de chercheurs, thésards, post-doctorants et stagiaires qui travaillent sur le traitement d’antenne microphonique, le rendering audio-3D et la compression multicanale en lien avec les standards internationaux MPEG et 3GPP.