Annonce

Les commentaires sont clos.

Modélisation générative par apprentissage profond pour l’analyse, la transformation et la synthèse de signaux de parole

3 Janvier 2022


Catégorie : Stagiaire



Modélisation générative par apprentissage profond pour l’analyse, la transformation et la synthèse de signaux de parole

Lieu : CentraleSupélec, campus de Rennes
Niveau : Master 2 ou dernière année d’école d’ingénieur
Dates : La durée du stage envisagée est de 5 à 6 mois, au printemps-été 2022
Rémunération : Minimum légal
Mots-clés : Traitement du signal audio, apprentissaage statistique, apprentissage profond
 

Encadrant : Simon Leglaive, Maître de Conférences, CentraleSupélec/IETR (https://sleglaive.github.io/)

Contexte

Les données de grande dimension telles que les images naturelles ou les signaux de parole présentent une certaine forme de régularité qui empêche leurs dimensions de varier indépendamment les unes des autres. Cela suggère qu'il existe une représentation latente de plus petite dimension à partir de laquelle les données observées en grande dimension ont été générées. Extraire les caractéristiques importantes impliquées dans le processus de génération de données complexes est l'objectif du domaine de l'apprentissage de représentation, et les modèles génératifs (à variables latentes) par apprentissage profond apparaissent comme des approches non supervisées prometteuses (Goodfellow et al., 2014; Kingma & Welling, 2014; Rezende et al., 2014; Chen et al.,2016; Higgins et al., 2017; Kim & Mnih, 2018; Chen et al., 2018). L'autoencodeur variationnel (VAE) (Kingma & Welling, 2014; Rezende et al., 2014), qui est doté à la fois d'un modèle génératif (décodeur) et d'un modèle d'inférence (encodeur), peut être utilisé non seulement pour la génération de données mais aussi pour l'analyse et la transformation. En tant que modèle explicite d'une fonction de densité de probabilité, le VAE peut également être utilisé comme a priori appris pour résoudre des problèmes inverses tels que l’acquisition comprimée (compressed sensing) (Bora et al., 2017), le rehaussement de la parole (Bando et al., 2018; Leglaive et al., 2018), ou la séparation de sources (Kameoka et al., 2019; Jayaram & Thickstun, 2020). Donner un sens à la représentation latente apprise par un VAE et contrôler les facteurs de variation sous-jacents sont des défis importants pour construire des modèles génératifs et des a priori probabilistes plus performants et interprétables.

Les travaux antérieurs sur l'apprentissage de représentations avec des modèles génératifs profonds, en particulier les VAEs, se sont principalement concentrés sur les images (Higgins et al., 2017; Kim & Mnih, 2018; Chen et al., 2018; Locatello et al., 2019; 2020). Pourtant, il n'est pas toujours facile de définir les facteurs de variation réellement impliqués dans la génération d'images naturelles. Pour les signaux de parole, ces facteurs peuvent être directement reliés aux mécanismes anatomiques de la production de la parole. Un concept clé pour caractériser la structure des signaux de parole est déduit du modèle source-filtre proposé par Fant (1970). Ce modèle considère que les signaux de parole sont produits à partir de quelques facteurs latents continus indépendants et physiquement interprétables, parmi lesquels la fréquence fondamentale et les formants sont de première importance.

Dans Sadok et al. (2021), nous avons montré que le modèle source-filtre de la production de la parole apparaît naturellement dans l'espace latent d'un VAE entraîné de façon non supervisée sur un corpus de signaux de parole. En utilisant seulement quelques secondes de signaux étiquetés générés par un synthétiseur de parole artificielle, nous avons montré expérimentalement que la fréquence fondamentale et les fréquences des formants sont encodées dans des sous-espaces orthogonaux de l'espace latent du VAE, et nous avons développé une méthode faiblement supervisée pour contrôler de manière précise et indépendante ces facteurs de variation dans les sous-espaces latents appris. Une des limitations principales de cette approche réside dans le fait que le modèle génère uniquement des spectrogrammes, ce qui nécessite une étape de post-traitement pour reconstruire la phase des signaux de parole. Nous avons utilisé pour cela Waveglow (Prenger et al., 2019), un « vocodeur neuronal » dont les performances sont limitées, probablement du fait de son entraînement sur un corpus de parole uni-locuteur.

Objectifs

Pour ce projet de stage, nous souhaitons poursuivre dans la direction de Sadok et al. (2021) en se focalisant principalement sur le problème de modélisation et génération de la phase. La piste principale envisagée consiste à combiner l’approche développée dans Sadok et al. (2021) avec le « vocodeur neuronal » LPCNet (Valin & Skoglund, 2019). LPCNet s’appuie sur une modélisation source-filtre du signal de parole (par prédiction linéaire) pour reconstruire un signal temporel de parole à partir de son spectrogramme de puissance et de sa fréquence fondamentale, estimée par exemple par l’algorithme supervisé CREPE (Kim et al., 2018; Morrison et al., 2021). Dans ce projet de stage, le spectrogramme serait ici celui fournit en sortie du VAE et l’information de fréquence fondamentale pourrait directement être extraite du sous-espace latent qui lui est associé (Sadok et al., 2021). Cette approche permettrait d’obtenir un modèle génératif par apprentissage profond permettant l’analyse (via l’encodeur du VAE), la transformation (via des manipulations dans l’espace latent) et la synthèse (via le décodeur du VAE et LPCNet) de signaux de parole, et ce de façon faiblement supervisée. Une seconde piste qui pourra être envisagée consistera à appliquer la méthodologie proposée dans Sadok et al. (2021) à RAVE (Caillon and Esling, 2021), un VAE modélisant directement la forme d’onde du signal de parole.

Profil

Le ou la candidat·e de niveau Master 2 ou dernière année d’école d’ingénieur devra avoir des compétences fortes en traitement du signal audio et apprentissage statistique. Il ou elle devra également maîtriser le langage de programmation Python.

Candidature

Merci d’envoyer un CV et une lettre de motivation à simon[dot]leglaive[at]centralesupelec[dot]fr

Références

Yoshiaki Bando, Masato Mimura, Katsutoshi Itoyama, Kazuyoshi Yoshii, and Tatsuya Kawahara. Statistical speech enhancement based on probabilistic integration of variational autoencoder and non-negative matrix factorization. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 716–720, 2018.

Ashish Bora, Ajil Jalal, Eric Price, and Alexandros G Dimakis. Compressed sensing using generative models. In International Conference on Machine Learning (ICML), pp. 537–546, 2017.

Antoine Caillon and Philippe Esling. RAVE: A variational autoencoder for fast and high-quality neural audio synthesis. arXiv preprint arXiv:2111.05011, 2021.

Ricky T. Q. Chen, Xuechen Li, Roger Grosse, and David Duvenaud. Isolating sources of disentanglement in variational autoencoders. In Advances in Neural Information Processing Systems (NeurIPS), 2018.

Xi Chen, Yan Duan, Rein Houthooft, John Schulman, Ilya Sutskever, and Pieter Abbeel. Infogan: Interpretable representation learning by information maximizing generative adversarial nets. In Advances in Neural Information Processing Systems (NeurIPS), 2016.

Gunnar Fant. Acoustic theory of speech production. Number 2. Walter de Gruyter, 1970.

Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Advances in Neural Information Processing Systems (NeurIPS), 2014.

Irina Higgins, Loic Matthey, Arka Pal, Christopher Burgess, Xavier Glorot, Matthew Botvinick, Shakir Mohamed, and Alexander Lerchner. Beta-vae: Learning basic visual concepts with a constrained variational framework. In International Conference on Learning Representations (ICLR), 2017.

Vivek Jayaram and John Thickstun. Source separation with deep generative priors. In International Conference on Machine Learning (ICML), pp. 4724–4735, 2020.

Hirokazu Kameoka, Li Li, Shota Inoue, and Shoji Makino. Supervised determined source separation with multichannel variational autoencoder. Neural computation, 31(9):1891–1914, 2019.

Hyunjik Kim and Andriy Mnih. Disentangling by factorising. In International Conference on Machine Learning (ICML), pp. 2649–2658, 2018.

Jong Wook Kim, Justin Salamon, Peter Li, and Juan Pablo Bello. Crepe: A convolutional representation for pitch estimation. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 161–165, 2018.

Diederik P. Kingma and Max Welling. Auto-encoding variational Bayes. In International Conference on Learning Representations (ICLR), 2014.

Simon Leglaive, Laurent Girin, and Radu Horaud. A variance modeling framework based on variational autoencoders for speech enhancement. In IEEE International Workshop on Machine Learning for Signal Processing (MLSP), pp. 1–6, 2018.

Francesco Locatello, Stefan Bauer, Mario Lucic, Gunnar Raetsch, Sylvain Gelly, Bernhard Schölkopf, and Olivier Bachem. Challenging common assumptions in the unsupervised learning of disentangled representations. In International Conference on Machine Learning (ICML), pp. 4114–4124, 2019.

Francesco Locatello, Stefan Bauer, Mario Lucic, Gunnar Ratsch, Sylvain Gelly, Bernhard Schölkopf, and Olivier Bachem. A sober look at the unsupervised learning of disentangled representations and their evaluation. Journal of Machine Learning Research, 21:1–62, 2020.

M. Morrison, Z. Jin, N. J. Bryan, J. Caceres, and B. Pardo, "Neural pitch-shifting and time-stretching with controllable LPCNet," Submitted to Interspeech 2021, August 2021.

Ryan Prenger, Rafael Valle, and Bryan Catanzaro. Waveglow: A flow-based generative network for speech synthesis. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 3617–3621, 2019

Danilo J. Rezende, Shakir Mohamed, and Daan Wierstra. Stochastic backpropagation and approximate inference in deep generative models. International Conference on Machine Learning (ICML), pp. 1278–1286, 2014.

Samir A. Sadok, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda, Renaud Séguier. Learning and controlling the source-filter representation of speech with a variational autoencoder. Submitted to International Conference on Learning Representations (ICLR) 2022. https://openreview.net/pdf?id=zxEfpcmTDnF

Jean-Marc Valin and Jan Skoglund. LPCNet: Improving neural speech synthesis through linear prediction. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 5891–5895, 2019.