Une amélioration importante des systèmes basés sur la parole a été observée ces dernières années grâce à l'introduction de modèles acoustiques basés sur des réseaux neuronaux profonds. Ces travaux ont démontré des améliorations prometteuses en matière d'efficacité par rapport aux modèles traditionnels de mélange gaussien. Cependant, ces systèmes ne fonctionnent toujours pas bien dans des environnements bruyants (par exemple, distorsion des canaux, scénarios avec des bruits additifs, et la réverbération), où l'intensité du signal de parole est plus faible, conduisant à un faible rapport signal/bruit (SNR) et rendant les systèmes sensibles au bruit additif et la réverbération. Le point essentiel pour améliorer la robustesse au bruit des systèmes basés sur la parole est de résoudre le problème du décalage entre la réalité et les tests. En raison de la grande quantité de types de bruit dans les scénarios réels, il est impossible de recueillir suffisamment de données couvrant toutes les conditions de bruit dans le monde réel. Ainsi, l’utilisation des données augmentées est une stratégie efficace pour accroitre la quantité de données sur la réalité et la diversité des types de bruit, qui peut améliorer la robustesse du modèle. L’apprentissage multi-style de la réalité est largement adoptée depuis longtemps [4]. Dans les méthodes traditionnelles d'augmentation des données, le bruit est
Par la suite, ce travail peut donner lieu à une poursuite d’étude pour une thèse de doctorat sur un sujet similaire. L’offre de ce doctorat sera publiée au printemps 2021, soutenue par l'ESAIP et l'Université d'Angers, Pole recherche MathSTIC, dans la thématique de recherche Du laboratoire LARIS, « Information, Signal, Image et Sciences du Vivant ».
Compétences requises (et savoir à enrichir durant le stage) :
Avoir des connaissances:
Avoir des compétences:
Avoir des aptitudes de travail:
Avoir des qualités:
Contacts:
Les candidats sont invités à communiquer leur candidature :
pour le sujet proposé ;
prasti@esaip.org
pejman.rasti@univ-angers.fr
Ce travail se fera dans le cadre de la collaboration CERADE avec le laboratoire LARIS Université d’Angers.Par conséquent, le stagiaire alternera sa présence en fonction des besoins sur les deux sites. Ces entités de recherche collaborent via leurs complémentarités en vision par ordinateur, apprentissage machine et intelligence artificielle.
Bibliographie:
[1] Xiaodong Cui, Vaibhava Goel, and Brian Kingsbury. Data augmentation for deep neural network acoustic modeling. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 23(9):1469-1477, 2015.
[2] Tom Ko, Vijayaditya Peddinti, Daniel Povey, and Sanjeev Khudanpur. Audio augmentation for speech recognition. In Sixteenth Annual Conference of the International Speech Communication Association, 2015.
[3] Tom Ko, Vijayaditya Peddinti, Daniel Povey, Michael L Seltzer, and Sanjeev Khudanpur. A study on data augmentation of reverberant speech for robust speech recognition. In 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 5220-5224.IEEE, 2017.
[4] Richard Lippmann, Edward Martin, and D Paul. Multi-style training for robust isolated-word speech recognition. In ICASSP'87. IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 12 pages 705-708. IEEE, 1987.
(c) GdR 720 ISIS - CNRS - 2011-2020.