Annonce

Les commentaires sont clos.

Stage master - Deep Learning sur le jeu de données Place Pulse 2 / Masters internship - Deep Learning on the Place Pulse 2 dataset

6 Janvier 2022


Catégorie : Stagiaire


Keywords: pairwise learning, visual urban perception, zero-shot learning, multi-task learning, computer vision, deep learning

 

[English below]

 

Contexte et sujet :

En urbanisme, la qualification de l’espace urbain est une tâche importante qui permet d’informer les experts et les collectivités territoriales de la manière dont est perçu l’espace public par un piéton. Cela consiste à mesurer des qualités souvent subjectives de l’espace urbain telles que le caractère naturel, la spaciosité, la propreté, etc. Une application possible est l’identification de zones prioritaires dans la politique urbaine de la ville.

Ce domaine est en fort développement grâce à la disponibilité d’images capturées du point de vue du piéton (street view imagery - SVI). Par exemple, des services comme Google Street View (GSV) proposent une couverture dense des zones urbaines dans le monde entier. En ajoutant à cela la haute performance des réseaux de neurones convolutionnels (CNN) pour le traitement d’images, de nombreux chercheurs ont commencé à développer des méthodes de qualification automatique de l’espace urbain.

Pour accompagner un travail doctoral en cours relatif à l’étude des propriétés de l’espace urbain à l’aide des outils d’apprentissage machine, une analyse approfondie d’un corpus spécifique est planifiée en 2022 dans le cadre d’un stage de Master.

A ce jour, le jeu de données le plus complet dans ce domaine est Place Pulse 2.0 (PP2) [1]. Il contient des comparaisons de paires d’images collectées par crowdsourcing via une plateforme en ligne. On présente à l’utilisateur 2 images de GSV, et il doit choisir celle qui correspond le plus à la qualité proposée. Le jeu de données contient 110 000 images et 1,1 millions de comparaisons pour les 6 qualités étudiées : safer, depressing, boring, lively, wealthier, beautiful.

Ce jeu de données est le plus souvent utilisé pour entraîner des réseaux de neurones. La tâche la plus courante est la classification binaire : le réseau prend en entrée 2 images et doit déterminer l’image gagnante, pour une qualité donnée. En s’appuyant sur la forte corrélation entre les 6 catégories, certains auteurs se sont penchés sur l’utilisation du multi-task learning [2,3], tandis que d’autres ont proposé d’utiliser le principe du zero-shot learning [4]. Cependant, malgré ces efforts pour utiliser des méthodes récentes en Deep Learning, les modèles actuels offrent des performances assez faibles, autour de 70% de précision.

Travail attendu :

Le stage a pour but d’explorer les différentes manières de traiter le problème posé par le jeu de données et de proposer un modèle avec des performances comparables à l’état de l’art :

  • Bibliographie sur les méthodes d’apprentissage profond pour le pairwise learning, le travail existant sur PP2 et les différentes architectures que l’on pourrait utiliser pour traiter le problème du jeu de données et améliorer les résultats à l’état de l’art.
  • Choisir une architecture / méthode et la mettre en œuvre sur le jeu de données PP2.
  • Comparer les résultats obtenus avec ceux de la littérature.

Une publication des résultats à l’issue du stage est attendue.

 

Compétences souhaitées :

  • Maîtrise de Python
  • Connaissance d’un framework de Deep Learning (PyTorch de préférence, ou Tensorflow)
  • Une première expérience en vision par ordinateur est un atout

 

Modalités :

  • Début souhaité : mars ou avril 2022
  • 5 à 6 mois à temps complet
  • Gratification légale en vigueur
  • Localisation : laboratoire AAU, équipe Crenau, école d’architecture de Nantes et télétravail pendant la période du 1/08 au 19/08.
  • Encadrement : Benjamin Beaucamp, Vincent Tourre, Thomas Leduc, Myriam Servières

Envoyer vos CV et lettre de candidature à
benjamin.beaucamp@ec-nantes.fr, vincent.tourre@ec-nantes.fr, thomas.leduc@crenau.archi.fr, myriam.servieres@ec-nantes.fr

 

 

[English]

Context and internship description:

In urban planning, the qualification of urban space is an important task that informs experts and local authorities on how public space is perceived by a pedestrian. This task involves measuring subjective qualities of urban space such as naturalness, spaciousness, tidiness, etc. A possible application is the identification of priority areas in the urban policy of the city.

This field is quickly developing thanks to the availability of images captured from the pedestrian point of view (street view imagery - SVI). For instance, services such as Google Street View (GSV) offer dense coverage of urban areas worldwide. Besides this, thanks to the high performance of convolutional neural networks (CNN) for image processing, many researchers have started to develop methods for automatic qualification of urban space.

To accompany an ongoing PhD thesis related to the study of urban space properties using machine learning tools, an in-depth analysis of a specific corpus is planned in 2022 as part of a Masters internship.

To date, the most comprehensive dataset in this field is Place Pulse 2.0 (PP2) [1]. It contains pairwise comparisons of images collected by crowdsourcing via an online platform. The user is presented with 2 GSV images, and must choose the one that corresponds the best to the proposed quality. The dataset contains 110,000 images and 1.1 million comparisons for the 6 following qualities: safer, depressing, boring, lively, wealthier, beautiful.

This dataset is generally used to train neural networks. The most common task is binary classification: the network takes 2 input images and must determine the winning image, for a given quality. Based on the high correlation between the 6 categories, some authors have focused on the use of multi-task learning [2,3], while others have proposed to use a zero-shot learning technique [4]. However, despite these efforts to use recent Deep Learning methods, current models offer rather low performances, around 70% accuracy.

Responsibilities:

The goal of this internship is to explore different ways to work with this dataset and to propose a model with state of the art performances:

  • Bibliography on deep learning methods for pairwise learning, existing work on PP2, the different architectures that could be used with this dataset and improve the state of the art results.
  • Choose an architecture / method and apply it on the PP2 dataset.
  • Compare the results obtained with those of the literature.

A publication of the results at the end of the internship is expected.

 

Qualifications:

  • Strong skills in Python
  • Some experience with a Deep Learning Framework (PyTorch preferred, or Tensorflow)
  • A prior experience working on a computer vision project is a plus

 

About the internship:

 

References :

[1] Dubey, A., Naik, N., Parikh, D., Raskar, R., & Hidalgo, C. A. (2016). Deep learning the city: Quantifying urban perception at a global scale. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 9905 LNCS, 196–212. https://doi.org/10.1007/978-3-319-46448-0_12

[2] Guan, W., Chen, Z., Feng, F., Liu, W., & Nie, L. (2021). Urban Perception: Sensing Cities via a Deep Interactive Multi-task Learning Framework. ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), 17(1s). https://doi.org/10.1145/3424115

[3] Min, W., Mei, S., Liu, L., Wang, Y., & Jiang, S. (2020). Multi-Task Deep Relative Attribute Learning for Visual Urban Perception. IEEE Transactions on Image Processing, 29, 657–669. https://doi.org/10.1109/TIP.2019.2932502

[4] Talebi, H., Amid, E., Milanfar, P., & Warmuth, M. K. (2020). Rank-Smoothed Pairwise Learning in Perceptual Quality Assessment. Proceedings - International Conference on Image Processing, ICIP, 2020-Octob, 3413–3417. https://doi.org/10.1109/ICIP40778.2020.9191231