Vous êtes ici : Accueil » Kiosque » Annonce

Identification

Identifiant: 
Mot de passe : 

Mot de passe oublié ?
Détails d'identification oubliés ?

Annonce

1 mars 2021

Stage PFE: Mise en place d'une plate-forme en ligne pour l'apprentissage approfondi basé des augmentation des données sur les signaux vocaux


Catégorie : Stagiaire


 

 

 

Une amélioration importante des systèmes basés sur la parole a été observée ces dernières années grâce à l'introduction de modèles acoustiques basés sur des réseaux neuronaux profonds. Ces travaux ont démontré des améliorations prometteuses en matière d'efficacité par rapport aux modèles traditionnels de mélange gaussien. Cependant, ces systèmes ne fonctionnent toujours pas bien dans des environnements bruyants (par exemple, distorsion des canaux, scénarios avec des bruits additifs, et la réverbération), où l'intensité du signal de parole est plus faible, conduisant à un faible rapport signal/bruit (SNR) et rendant les systèmes sensibles au bruit additif et la réverbération. Le point essentiel pour améliorer la robustesse au bruit des systèmes basés sur la parole est de résoudre le problème du décalage entre la réalité et les tests. En raison de la grande quantité de types de bruit dans les scénarios réels, il est impossible de recueillir suffisamment de données couvrant toutes les conditions de bruit dans le monde réel. Ainsi, l’utilisation des données augmentées est une stratégie efficace pour accroitre la quantité de données sur la réalité et la diversité des types de bruit, qui peut améliorer la robustesse du modèle. L’apprentissage multi-style de la réalité est largement adoptée depuis longtemps [4]. Dans les méthodes traditionnelles d'augmentation des données, le bruit est

directement ajouté à la parole propre originale [2, 3], ce qui permet d'obtenir manuellement les données bruitées simulées. De plus, certaines méthodes basées sur les réseaux de neurones sont étudiées pour augmenter les données [1]. Bien qu'un gain de performance soit observé, ces méthodes présentent toujours deux limites principales : (1) la diversité des données générées dépend des données existantes sur la parole et le bruit ; (2) les bruits artificiels peuvent poser des problèmes, tels qu'une stationnarité irréaliste, la répétition irréaliste du même bruit, et trop simplifié les simulations d'acoustique des salles. L'objectif du sujet proposé est d'étudier l'état de l'art de l'apprentissage profond des
méthodes d'augmentation des données dans le contexte des signaux vocaux. Cet objectif se réalisera par les missions suivantes :
 
  • La mise à jour de l'état de l'art des modèles d'augmentation des données tels que les réseaux antagonistes génératifs (GAN) pour ajouter du bruit environnemental aux données vocales.
  • Mettre en oeuvre et tester les méthodes d'apprentissage approfondi existantes pour la parole et les comparer aux méthodes traditionnelles. Leur utilisation se fera sur la reconnaissance de la parole, soit la détection des émotions et ou la vérification de la parole.
  • La construction d'une plate-forme en ligne (site web) qui reçoit un signal vocal et renvoient le même signal avec un bruit environnemental.
  • Si possible, mettre en place un nouveau simulateur pour générer le signal de parole.

Par la suite, ce travail peut donner lieu à une poursuite d’étude pour une thèse de doctorat sur un sujet similaire. L’offre de ce doctorat sera publiée au printemps 2021, soutenue par l'ESAIP et l'Université d'Angers, Pole recherche MathSTIC, dans la thématique de recherche Du laboratoire LARIS, « Information, Signal, Image et Sciences du Vivant ».

Compétences requises (et savoir à enrichir durant le stage) :

Avoir des connaissances:

  • Réseaux neuronaux
  • Modélisation acoustique
  • Reconnaissance de la parole à large vocabulaire

Avoir des compétences:

 

  • Utilisation des outils de traitement du signal
  • Utilisation des outils de reconnaissance vocale

Avoir des aptitudes de travail:

  • Méthode et rigueur
  • Grande motivation, curiosité et persévérance

Avoir des qualités:

  • Organisation, qualités relationnelles, écoute et disponibilité

 

Contacts:

Les candidats sont invités à communiquer leur candidature :

  • - Un CV mis à jour ;
  • - Une lettre de motivation avec un intérêt explicite

pour le sujet proposé ;

  • En complément, annexe contenant une description succincte de tout projet réalisé.

 

prasti@esaip.org

pejman.rasti@univ-angers.fr

 

Ce travail se fera dans le cadre de la collaboration CERADE avec le laboratoire LARIS Université d’Angers.Par conséquent, le stagiaire alternera sa présence en fonction des besoins sur les deux sites. Ces entités de recherche collaborent via leurs complémentarités en vision par ordinateur, apprentissage machine et intelligence artificielle.

Bibliographie:

[1] Xiaodong Cui, Vaibhava Goel, and Brian Kingsbury. Data augmentation for deep neural network acoustic modeling. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 23(9):1469-1477, 2015.

[2] Tom Ko, Vijayaditya Peddinti, Daniel Povey, and Sanjeev Khudanpur. Audio augmentation for speech recognition. In Sixteenth Annual Conference of the International Speech Communication Association, 2015.

[3] Tom Ko, Vijayaditya Peddinti, Daniel Povey, Michael L Seltzer, and Sanjeev Khudanpur. A study on data augmentation of reverberant speech for robust speech recognition. In 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 5220-5224.IEEE, 2017.

[4] Richard Lippmann, Edward Martin, and D Paul. Multi-style training for robust isolated-word speech recognition. In ICASSP'87. IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 12 pages 705-708. IEEE, 1987.

 

Dans cette rubrique

(c) GdR 720 ISIS - CNRS - 2011-2020.