Annonce

Les commentaires sont clos.

Post-Doc at Orange Rennes: towards affordable self-supervised learning for speech processing

21 Septembre 2022


Catégorie : Post-doctorant


Post-Doc at Orange Rennes: towards affordable self-supervised learning for speech processing.

 

Offre de postdoc au sein d'Orange à Rennes. Plus de détails et candidature à cette adresse : https://orange.jobs/jobs/v3/offers/116910?lang=FR.

Postdoc position at Orange, Rennes, France. More details and application here: https://orange.jobs/jobs/v3/offers/116910?lang=EN


Sujet :
Le domaine du traitement de la parole a connu un tournant important ces dernières années avec l’apparition de modèles complètement neuronaux. Ces modèles ont d’abord été entraînés de manière supervisée, c’est-à-dire en disposant pour chaque enregistrement audio d’une annotation manuelle. Les modèles purement neuronaux bénéficient grandement d’un entraînement sur de larges corpus et cela implique donc d’utiliser de plus en plus de données. Or, le coût d’annotation s’est vite révélé prohibitif.
L’apprentissage auto-supervisé constitue une solution naturelle à ce problème.
On retrouve de nombreux travaux en traitement du texte [1,2] et de l’image [3,4] qui ont ouvert la porte à ce type d’approche et permis d’utiliser plus de données, sans supervision humaine. Concernant le traitement de la parole en audio, des méthodes ont également été proposées, souvent inspirées des approches en texte et image, et ont apporté des gains de performances sur différentes tâches de traitement de la parole [5]. Néanmoins, l’adoption de telles approches reste conditionnée par leur coût. En effet, l’entraînement nécessite des ressources très importantes (e.g. 16000 heures GPU [6]).
Le but du post-doc sera de développer des approches permettant de limiter les ressources nécessaires à l’entraînement et à l’utilisation des modèles auto-supervisés de la langue parlée, afin d’en démocratiser l’usage. Par ailleurs, il s’agira de mieux saisir les mécanismes entrant en jeu dans la qualité d’un apprentissage auto-supervisé.
Plusieurs pistes pourront être explorées :

  • Analyse du comportement du modèle durant l’entraînement
  • Construire une architecture plus efficace
  • Explorer les critères d’entraînement
  • Travailler sur les données utilisées

Verrou technique : difficulté de mise en œuvre de l’entraînement des modèles SSL

  • Dans un contexte de ressources limitées
  • Avec des « engineering tricks » qui ont des impacts très importants (e.g. dynamic batching)
  • Avec des difficultés rencontrées par la communauté pour reproduire les résultats

Verrous scientifiques

  • Evolution rapide de l’état de l’art, obligeant à une veille scientifique continue
  • Une compréhension fine des méthodes nécessaire


[1] Mikolov, T. et al. Efficient estimation of word representations in vector space. ICLR Workshop 2013

[2] Devlin, J. et al. Bert: Pre-training of deep bidirectional transformers for language understanding. NAACL-HLT 2018

[3] Grill, J. B. et al. Bootstrap your own latent-a new approach to self-supervised learning. NeurIPS 2020

[4] Chen, T. et al. A simple framework for contrastive learning of visual representations. ICML 2020

[5] Yang, S. W. et al. Superb: Speech processing universal performance benchmark. Interspeech 2021

[6] Baevski, A. et al. wav2vec 2.0: A framework for self-supervised learning of speech representations. NeurIPS 2020