Annonce
Thèse : Détection d’Instants Mémorables dans le domaine Audiovisuel
4 Novembre 2023
Catégorie : Doctorant
Titre : Détection d’Instants Mémorables dans le domaine Audiovisuel
« Memorable Instants Smart Detection (MISD) in the Audio-Visual domain »
Laboratoire :
Laboratoire de Traitement et Transport de l’Information (L2TI, UR 3043), Institut Galilée
Université Sorbonne Paris Nord
99, avenue Jean-Baptiste Clément - 93430 Villetaneuse
https://www-l2ti.univ-paris13.fr
Direction / Encadrement :
Cédric AOUN (direction GAWL France)
Anissa MOKRAOUI (direction L2TI) / Zuheng MING (encadrement L2TI)
1.Contexte
Cette thèse s’inscrit dans le cadre du projet MISD issu de la collaboration entre l’entreprise GAWL et le Laboratoire de Traitement et de Transport de l’Information (L2TI, UR 3943) de l’Université Sorbonne Paris Nord (USPN). Cette thèse permettra notamment la mise en œuvre des applications suivantes dans le domaine audiovisuel :
- La détection automatique de la publicité et la détection de programmes dans des flux linéaires vidéos (TV en Direct) [2] ;
- La production programmatique de vidéos courtes représentatives (intégrants des instants mémorables), aussi appelées « highlights », à partir de fichiers vidéos existants [1,3,4,5].
2.Missions principales
Les missions envisagées dans le cadre de cette thèse s’articulent autour de :
• Identification et catégorisation des types d’instants/lieux mémorables et de leurs attributs sur les contenus audiovisuels fournis par l’entreprise (programmes de divertissement, films, séries, et bien d’autres genres de contenus).
• Analyse de l’état de l’art relatif à la détection des instants mémorables dans l’audiovisuel (notamment et non seulement la détection de : la publicité, de personnages clefs, d’actions/émotions mémorables).
• Étude comparative (théorique et expérimentale) des solutions identifiées dans le cadre de l’analyse de l’état de l’art.
• Stratégie d’implémentation des solutions proposées.
• Développement de solutions basées sur l’apprentissage automatique pour : i) la détection et l’extraction des publicités ; et ii) la génération des highlights (dans le cadre de la publication sur les réseaux sociaux).
• Développement d’une métrique de la rétention (taux sur la durée de la visualisation des vidéos) pour mesurer la performance des highlights générées.
1.Badamdorj, T., Rochan, M., Wang, Y. and Cheng, L., 2021. Joint visual and audio learning for video highlight detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 8127-8137).
2.Liu, Zongyi. "A deep neural framework to detect individual advertisement (ad) from videos." In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, pp. 3578-3587. 2023.
3.Xu, M., Wang, H., Ni, B., Zhu, R., Sun, Z. and Wang, C., 2021. Cross-category video highlight detection via set-based learning. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 7970-7979).
4.Wei, F., Wang, B., Ge, T., Jiang, Y., Li, W. and Duan, L., 2022. Learning pixel-level distinctions for video highlight detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 3073-3082).
5.Zhang, H., Li, X. and Bing, L., 2023. Video-llama: An instruction-tuned audio-visual language model for video understanding. arXiv preprint arXiv:2306.02858.
4. Formation et compétences requises
Le candidat doit posséder un diplôme BAC + 5 (Master, diplôme d’ingénieur grandes écoles).
Compétences scientifiques requises : computer vision, apprentissage automatique
Compétences requises en développement : Python, Pytorch, Tensorflow.
Candidature :
Pour candidater, veuillez nous adresser votre CV, une lettre de motivation, vos relevés de notes et au moins une lettre de recommandation à research@gawl.eu.