Vous êtes ici : Accueil » Kiosque » Annonce

Identification

Identifiant: 
Mot de passe : 

Mot de passe oublié ?
Détails d'identification oubliés ?

Annonce

5 octobre 2020

Postdoc Méthodes avancées de compression audio 3D pour les services 5G conversationnels


Catégorie : Doctorant


Votre rôle

Votre rôle est d'effectuer un travail de postdoc sur les méthodes avancées de compression audio 3D pour les services 5G conversationnels.

Orange a été le premier opérateur au monde à déployer la qualité « HD voice » sur réseau mobile 3G, avec un gain significatif de qualité des appels voix. Par la suite, Orange a contribué au développement du standard de compression appelé EVS (Enhanced Voice Services) permettant aujourd'hui aux services voix sur mobile (4G, Wifi) d'atteindre la qualité « HD Voice Plus (HD+) » équivalente à une qualité voix Hifi / radio FM.

Les services conversationnels actuels restent cependant limités à du mono (un seul canal audio associé à une écoute monaurale ou diotique). La prochaine génération (appels voix ou conférences audio/vidéo améliorés, services à base de réalité virtuelle ou augmentée…) sur réseaux 5G pourra offrir une expérience client sensiblement meilleure en ajoutant la dimension audio spatiale. Cela suppose de définir un nouveau codec capable de représenter l'audio 3D.

L'objet du postdoc est de contribuer à l'effort de recherche nécessaire au développement d'un tel codec.

On peut différencier plusieurs types de format audio immersifs avec différents degrés d' « enveloppement sonore » et d'interactivité possibles:

  •  stéréo
  •  binaural
  •  multicanal (ex : 5.1, 7.1)
  •  ambisonique
  •  objets audio avec métadonnées décrivant la spatialisation

Pour que ces formats soient utilisables dans des situations de conversation sur mobile, cela suppose une captation multi-microphones dans les terminaux de type smartphones (ou des accessoires connectés) ainsi qu'une restitution spatiale sur casque (binaurale) ou sur plusieurs haut-parleurs.

L'audio 3D est un domaine déjà très avancé avec des méthodes de captation et de restitution très répandues. En particulier, Orange a contribué au développement des aspects fondamentaux de l'ambisonique à des ordres supérieurs (HOA) - devenu récemment très populaire pour les applications de réalité virtuelle et d'audio 360 - et à démocratiser l'écoute binaurale pour le streaming audio, avec entre autres une contribution au player HyperRadio et à la définition des conventions dites « SOFA ».

La compression audio 3D est un sujet de recherche qui a été largement exploré et il existe déjà plusieurs exemples récents de codecs audio 3D, comme MPEG-H 3D Audio, Dolby Atmos, DTS-UHD ou Opus. Cependant, ceux-ci ont été développés pour des applications non conversationnelles (cinéma, streaming…) ou ne correspondent pas aux besoins identifiés. En particulier, ils ne répondent aux contraintes spécifiques des applications conversationnelles dans un contexte mobile (types de captation sur smartphones, débit, latence, complexité de codage/décodage en temps-réel…).

 

Votre profil

 

Formation doctorat académique ou industriel

Expériences souhaitées :

  • Domaine de recherche : Audio 3D / Acoustique, théorie de l'information et du codage
  • Intérêt pour le domaine de l'audio
    Maîtrise des outils de développement informatique : langage C, Python et/ou Matlab

Notions en codage audio, psychoacoustique ou prise de son et restitution appréciées

 

Le plus de l'offre

 

L'objectif scientifique du postdoc est de concevoir et développer de nouvelles méthodes de compression audio 3D, en particulier pour les contenus de type ambisonique, afin d'optimiser la qualité audio 3D à des débits faibles (avec des contraintes sur la complexité, le retard).

Les travaux du postdoc vont en particulier viser à développer des méthodes de compression innovantes et optimiser la qualité d'une écoute binaurale de signaux ambisoniques. La problématique est donc divisée en deux questions de recherche :

1. Quel est le meilleur modèle de compression à bas débit pour l'ambisonique ?

2. Quel est l'influence des filtres HRTFs sur les résultats de qualité de codage ambisonique et comment assurer la meilleure qualité de service dans le cas d'un codage ambisonique (étudié à la question 1) et une écoute binaurale?

Concernant la question 1, les travaux viendront renforcer et prolonger l'activité de recherche en cours au sein d'Orange, en particulier les travaux sur des méthodes plus avancées que le codage multi-mono/stéréo.

Concernant la question 2, il sera question d'étudier l'influence des filtres HRTFs sur la qualité en situation statique (tête statique) ou dynamique (avec un suivi de mouvement de la tête ou « head tracking ») et de valider la différence de qualité entre des filtres HRTFs « génériques » (non individualisés, indépendants du sujet) et des filtres HRTFs personnalisés ou individualisés.

Les travaux seront réalisés selon le calendrier suivant :

1. Etude des travaux réalisés et en cours à Orange sur la compression et le rendu binaural, revue de l'état de l'art, pré-expérimentations (T0->T0+1 mois)

2. Conception de méthodes de compression audio/quantification avec développement MATLAB/Python (T0+1->T0+10 mois)

3. Implémentation des méthodes de compression en langage en C, et tests (tests subjectifs validant la qualité et estimation de complexité) (T0+4->T0+12 mois)

4. Constitution d'une base de comparaison de « renderers », évaluation de l'influence des filtres HRTFs sur la qualité audio en rendu binaural par des tests subjectifs (T0+1->T0+12 mois)

5. Documentation, rédaction de rapports, publications (selon l'avancement)

 

Entité

Au sein de la direction Home d'Orange Labs Services (OLS), l'équipe Content Video & Audio (CVA), développe une expertise dans l'étude et la mise en oeuvre de formats audio et vidéo immersifs innovants, en particulier pour la réalité virtuelle ou augmentée. Pour la partie audio, l'équipe conduit des travaux de recherche sur les algorithmes de traitement audio, tels que les codecs voix/audio, les algorithmes d'amélioration de qualité vocale (annulation d'écho, séparation de sources...), le son 3D (conception de microphones ambisoniques, localisation et tracking de sources audio…) et leur intégration dans des services innovants. Elle contribue également à la normalisation des technologies et services.

 

https://orange.jobs/jobs/offer.do?joid=92206&lang=FR

 

Dans cette rubrique

(c) GdR 720 ISIS - CNRS - 2011-2020.