Vous êtes ici : Accueil » Kiosque » Annonce

Identification

Identifiant: 
Mot de passe : 

Mot de passe oublié ?
Détails d'identification oubliés ?

Annonce

2 mai 2018

Réduction de complexité des encodeurs pour le futur standard de compression vidéo à l’aide de techniques d’apprentissage automatique


Catégorie : Doctorant


Proposition de thèse sur l’utilisation des techniques de machine learning et de deep learning pour réduire la complexité des encodeurs vidéo pour la future norme de compression vidéo (Futur Video Coding). 

Mots clés : compression vidéo, machine learning, deep learning, réduction de complexité, systèmes embarqués.

 

Contexte et problématique

La visualisation de contenus vidéos a été révolutionnée en une décennie avec l’apparition de services de vidéo à la demande, de webtélé, de sites de partage de vidéos, de service de diffusion en directe pour les particuliers et plateformes de diffusion offertes par les réseaux sociaux. Ceci a conduit à une explosion du trafic internet. Selon une étude récente de Cisco [Cisco17], le trafic internet lié à la vidéo va quadrupler entre 2016 et 2021 et représentera 81 % du trafic internet global. L’apparition de nouveaux contenus vidéo tels que la vidéo 360, la Réalité Virtuelle (RV), le High Frame Rate (HFR) et l’avènement de très grandes résolutions spatiale 8K voire 16K conduit à une augmentation très forte de la quantité de données à transmettre. Ces nouveaux contenus combinés à la très forte augmentation du trafic de vidéos sur internet nécessitent la mise en œuvre de techniques de compression vidéo encore plus efficaces que celles existantes pour limiter l’augmentation des débits et assurer une meilleure qualité de service aux utilisateurs.

En conséquence, le groupe de normalisation MPEG a lancé un appel à contribution pour la définition d’un nouveau standard (FVC: Future Video Coding) à l’horizon 2020-2021. Les nouveaux outils de codage déjà proposés par rapport au standard vidéo actuel HEVC (High Efficiency Video Coding) [Sulivan12] permettent d'ores et déjà d’améliorer les performances en termes de gain débit-distorsion entre 25% et 30% [Sidaty17]. Ce gain motive le lancement des activités de standardisation pour atteindre 50% de gain en débit à l’horizon 2021. Ces gains en débit-distorsion sont obtenus grâce à l’introduction de nouveaux outils comme une nouvelle décomposition des blocs de pixels (Quad Tree + Binary Tree (QTBT)), de nouvelles transformées DCT/DST de type 1, 2, 5 et 7, l’augmentation des modes de prédiction Intra (passage de 35 modes dans HEVC à 67 dans FVC) et des filtres de compensation de mouvements plus complexes [Schwarz16].

Ces nouveaux outils de codage apportent un gain significatif en compression au détriment d’une augmentation de la complexité estimée à 10 fois la complexité du standard HEVC à la fois au niveau de l’encodeur que du décodeur [Alshina16]. Cette complexité importante pose un vrai défi quant à l’implémentation temps réel du nouveau codec sur des plateformes embarquées limitées en ressources de calcul, de mémoire et de consommation d’énergie notamment pour des nouveaux contenus (vidéo 360, RV, HFR) qui arrivent avec de très grandes résolutions spatiale (8K, 16K) et temporelle 120 fps (frame per seconde) ce qui rend plus difficile d’atteindre des performances de codage et décodage temps réel.

Objectifs du projet

Les avancées réalisées ces dernières années dans le domaine des plateformes embarquées multi-coeurs ne permettent pas de multiplier par 10 les capacités de calcul de ces plateformes. Ainsi, il est nécessaire de travailler sur des aspects algorithmiques pour réduire la complexité de l’encodeur FVC tout en préservant le gain en débit et qualité apporté par ces nouveaux outils de codage.

Chaque image de la vidéo est segmentée en blocs de 128x128 pixels. Chaque bloc est décomposé en un ensemble de sous-blocs de taille et de forme à déterminer. Cette décomposition forme l’arbre QTBT. Ensuite, chaque sous-bloc de cet arbre, est prédit à partir des pixels voisins de ce bloc (prédiction intra) ou d’un bloc d’une autre image préalablement codée (prédiction inter). Dans, les deux cas, la direction vers les blocs de référence conduisant à la meilleure prédiction doit être déterminée. Finalement, une transformée (DCT/DST) est appliquée aux résidus de la prédiction (erreur entre la source et le bloc prédit).

L’objectif du processus d’encodage est de minimiser le coût débit-distorsion, c’est à dire obtenir le débit minimal pour une qualité donnée ou à la qualité maximale pour un débit donné. Pour cela, l’encodeur doit sélectionner pour les trois niveaux de hiérarchie (décomposition QTBT, direction de prédiction, transformée) la configuration conduisant au coût débit-distorsion minimal. Actuellement, l’encodeur de référence encode un bloc de pixels avec toutes les combinaisons de configurations possibles entre les différents niveaux de hiérarchie et retient la meilleure configuration. Ce test exhaustif conduit à des temps d’encodage prohibitifs. Le challenge pour réaliser un décodeur temps réel est de réduire drastiquement le nombre de configurations testées en utilisant des techniques de prédiction pour sélectionner les configurations les plus probables et tester uniquement celles-ci.

L’objectif de cette thèse est de définir pour les différents niveaux de hiérarchie des techniques de prédiction permettant de réduire significativement la complexité du processus d’encodage. Nous travaillerons plus particulièrement sur la prédiction de la décomposition d’un bloc en un arbre QTBT. Cette prédiction se ramène à un problème de classification plus complexe que celui présenté dans HEVC pour lequel, nous souhaitons utiliser des approches statistiques [Wang17] et des techniques d’apprentissage automatique (machine learning)[Goodfellow13]. En particuliers, nous souhaitons utiliser des approches de classification basées sur le machine learning, notamment Generative Adversarial Network (GAN) [7] qui offre de meilleures performances en classification, pour prédire efficacement à moindre cout de calcul, la décomposition qui minimise le coût débit-distorsion. L’idée est à chaque niveau de l’arbre prédire si on doit s'arrêter ou descendre dans l’arbre suivant tous les choix de décomposition possibles à ce niveau de l’arbre.Le second volet envisagé dans le cadre de cette thèse est de réduire la complexité des prédictions Intra où 67 modes sont testés. L’idée est d’utiliser des méthodes de machine learning ou deep learning pour prédire le sous ensemble de modes à tester sans dégrader la qualité du résultat.

Les performances en termes de débit-distorsion, complexité et consommation d’énergie de la solution proposée seront évaluées dans un contexte de plateforme embarquée multi-cœurs en prenant en compte le surcoût des algorithmes de prédiction utilisés au niveau de l’encodeur.

Environnement de recherche

Partenariat industriel Cette thèse est réalisée dans le cadre du projet de recherche industrielle FUI EFIGI. Ce projet est porté par la société Thalès C&S et les différents partenaires industriels sont ATEME, VITEC, VideoLabs et Ektacom. Le doctorant aura l’opportunité de collaborer étroitement avec ces différents partenaires industriels en vue de réaliser des démonstrations communes.

Partenariat international. Ces travaux de recherche seront réalisés en collaboration avec l’équipe de recherche Ultra Video Group du laboratoire Pervasive Computing de l’Université Technologique de Tampere. Cette équipe possède une expertise dans le domaine de l’encodage vidéo. En particuliers, elle développe l’encodeur HEVC open-source Kvazaar. Celui-ci a été récompensé en 2016 du premier prix de la compétition Open Source Software de l’ACM Multimedia Conference. Dr Jarno Vanne, responsable de cette équipe de recherche et du projet Kvazar sera intégré dans l’encadrement de cette thèse. Nous avons déjà collaboré avec cette équipe de recherche dans le cadre des projets européens H2B2VS et 4KReprosys. Cette collaboration a déjà permis de faire des publications scientifiques et démonstrateurs communs entre les deux équipes de recherche.

Equipe projet FVC au sein de l’IETR.Le doctorant sera intégré au sein d’une équipe projet dans le cadre du projet FUI EFIGI. Cette équipe intègre trois enseignants-chercheurs, deux ingénieurs de recherche et un doctorant CIFRE qui travaille sur le futur standard de compression vidéo. Ainsi, le doctorant bénéficiera de l’émulation au sein de cette équipe et des développements logiciels réalisés par les ingénieurs. Par ailleurs, lors des séjours à Tampere, le doctorant bénéficiera de l’expertise de l’équipe UVG- TUT dans le domaine des encodeurs vidéo et du développement logiciel d’encodeurs temps réel.

Valorisation des travaux

Valorisation dans le milieu industriel Ces travaux de recherche pourront être valorisés à travers des collaborations avec les industriels bretons spécialisés dans l’encodage vidéo (Harmonic, BBright, Envivio, ATEME, Aviwest, Ektacom) ou au niveau national (Thales C&S (Paris), VITEC (Paris), Allegro DVT (Grenoble), ST Micrelectonics (Grenoble))Ces travaux de recherche s’intégreront dans le cadre d’un projet de recherche collaboratif EFIGI avec les partenaires Thales C&S, Vitec, Ateme, Ektacom.

Valorisation des travaux en normalisationPour assurer l’interopérabilité entre les systèmes de codage vidéo, le flux vidéo compressé est normalisé au sein d’organismes tels que MPEG. Ces travaux de recherche seront réalisés au cours de la période de normalisation de cette future norme de compression vidéo. Ainsi, les résultats obtenus feront l’objet de contributions au standard pour soit intégrer directement le futur standard vidéo ou influencer les directions du standard dans l'intérêt du consortium du projet. Nos précédents travaux sur l’optimisation de la consommation d’énergie au niveau d’un décodeur HEVC ont fait l’objet d’une protection par deux brevets (SATTT Ouest Valorisation) et ont ensuite été proposés au groupe de travail Green Metadata du comité de normalisation MPEG.

Déroulement de la thèse

M0 - M5 : Etude bibliographique sur la compression vidéo, les nouveaux outils de compression vidéo, outils de classifications, machine learning types CNN et GAN.

M6 - M11 : Prise en main des outils de programmation pour la compression vidéo JEM et les outils de classification Machine Learning, Random Forest, Deep Learning, CNN et GAN.

M12 - M23 : Conception et développement d’une première solution de réduction de complexité dans le nouveau standard vidéo aux niveaux de la répartition en QTBT et les modes de prédiction INTRA.

M24 - M30 : Développement d’un premier schéma d’encodeur FVC à faible complexité en collaboration avec TUT (Finlande) sur une plateforme multi-cœurs mobile avec optimisation des ressources énergétiques et mémoire.

M31-M35 : Rédaction du manuscrit de thèse.

Profil du candidat (compétences scientifiques et techniques requises) :

Le candidat devra posséder un diplôme de master en traitement du signal ou en informatique. Il devra avoir des connaissances et des compétences dans les domaines suivants :

Encadrement

Pour candidater, veuillez adresser votre CV et une lettre de motivation à Daniel.Menard@insa-rennes.fr et Wassim.Hamidouche@insa-rennes.fr.

Références

[Cisco17] Cisco Corp., VNI Global Fixed and Mobile Internet Traffic Forecasts. 12th annual complete Visual Networking Index forecast, June 2017

[Sulivan12] G. J. Sullivan, J.-R. Ohm, W.-J. Han, and T. Wiegand, “Overview of the High Efficiency Video Coding (HEVC) Standard,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 22, no. 12, pp. 1649–1668, Dec. 2012.

[Sidaty17] N. Sidaty, W. Hamidouche, O. Deforges, and P. Philippe, “Compression Efficiency of the Emerging Video Coding Tools,” in IEEE Conference on Image Processing (ICIP), September 2017.

[Schwarz16] H. Schwarz, C. Rudat, M. Siekmann, B. Bross, D. Marpe, and T. Wiegand, “Coding Efficiency / Complexity Analysis of JEM 1.0 coding tools for the Random Access Configuration,” in Document JVET-B0044 3rd 2nd JVET Meeting: San Diego, CA, USA, February 2016.

[Alshina16] E. Alshina, A. Alshin, K. Choi, and M. Park, “Performance of JEM 1 tools analysis,” in Document JVET-B0044 3rd 2nd JVET Meeting: San Diego, CA, USA, February 2016.

[Wang17] Z. Wang, S. Wang, J. Zhang, S. Wang, and S. Ma, “Probabilistic Decision based block partitioning for future video coding,” IEEE Transactions on Image Processing, vol. PP, no. 99, pp. 1–1, 2017.

[Xu17] Mai Xu, Tianyi Li, Zulin Wang, Xin Deng, Zhenyu Guan, Reducing Complexity of HEVC: A Deep Learning Approach, Computer Vision and Pattern Recognition, 2017

[Goodfellow13] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio, Generative Adversarial Nets, 2013.

 

Dans cette rubrique

(c) GdR 720 ISIS - CNRS - 2011-2018.