Annonce
Thèse : Méthodologie d’évaluation de la représentativité et de la vulnérabilité des jeux de données de type traces numériques pour l’analyse de la mobilité
13 Octobre 2023
Catégorie : Doctorant
Introduction
Avec le déploiement rapide des systèmes de géolocalisation et de communication, l’introduction de l’internet des objets, et le stockage facilité des données, les activités humaines génèrent de manière accrue un ensemble de traces numériques. Dans le domaine de la mobilité, ces traces prennent la forme de «trajectoires», à savoir des ensembles de lieux horodatés décrivant les mouvements d’individus dans le temps(généralement sur une journée). Ces trajectoires peuvent être collectées par différentes technologies (GPS, téléphonie, applications, billettique...) [1,2] et présenter des résolutions spatiales et temporelles diverses. Toutefois, ces jeux de données souffrent généralement d’un manque de méta-données (sur les motifs et modes de déplacements) ou encore d’informations permettant de juger de la représentativité statistique de l'échantillon d’individus observé [3].
Or, les traces constituent une source d’information extrêmement pertinente, tant pour les décideurs (qui doivent planifier les infrastructures de transport) que pour les opérateurs (qui souhaitent adapter leurs services à la diversité des utilisateurs). En effet, les données de type «trajectoires» sont potentiellement utiles à de nombreuses applications: (i) en elles-mêmes, elles révèlent les fondements des comportements humains de mobilité [1,2]; (ii) lorsqu'elles sont superposées à des couches décrivant l'environnement bâti, elles donnent un aperçu des interactions entre l'homme et l'environnement. L’intérêt de ce croisement est tel, que de nombreux travaux de recherche sont menés pour étudier ses potentiels et limites, en complément / remplacement des données d’enquête classiques [4,5].
Nos déplacements renseignent également sur nos caractéristiques: points d’intérêt visités, fréquences de visite, diversité des lieux explorés ou distances parcourues, sont autant d’indices qui apportent de l’information en creux sur nos caractéristiques socio-démographiques [6,7] individuelles ou collectives. Les traces de «trajectoires» pourraient donc aider à caractériser le jeu de données, et à identifier ses biais / carences en matière de représentativité, au travers de l’inférence de caractéristiques non connues: genre, âge, catégorie socio-professionnelle, commune de résidence et de travail...De fait, les jeux de données n’étant pas exhaustifs, l’analyse statistique des caractéristiques de l’échantillon constitue, par comparaison avec celles de la population globale, un moyen de vérifier la représentativité des données disponibles.
L’inférence de ces caractéristiques, pour mieux juger de la représentativité d’un jeu de données, est une problématique pertinente. Celle-ci l’est même doublement, car une telle étude permettrait également d’identifier les risques d’un enrichissement non désiré (attribute linkage attack) d’un tel jeu de données, si jamais celui-ci venait à être divulgué. Cela permettrait ainsi de mieux juger de son caractère «vulnérable», suivant le degré de dégradation (par agrégation / simplification) apporté à celui-ci.
Contexte
L’analyse et l’observation des mobilités s’appuient traditionnellement sur les enquêtes déclaratives de mobilité (Enquêtes Ménages Déplacements, enquêtes origine-destination, enquêtes cordon...). De telles enquêtes présentent plusieurs avantages: elles couvrent tous les modes de transport et tous les motifs de déplacement, elles contiennent des informations sur les enquêtés (genre, catégorie socioprofessionnelle, taux de motorisation, etc.). En revanche, elles sont coûteuses et, de ce fait, ne sont réalisées qu’avec des fréquences assez faibles (typiquement 5 ou 10 ans entre deux enquêtes), ce qui ne permet pas un suivi très proche des évolutions en cours, notamment dans une situation post-pandémie où la généralisation du télétravail a fortement impacté les comportements de mobilité. De plus, les enquêtes adressent usuellement «un jour moyen» de la semaine, ce qui ne permet pas de comprendre la diversité des comportements et stratégies de mobilité adoptées sur une semaine.
En complément des enquêtes traditionnelles, l’Institut Paris Région a lancé, en partenariat avec la Région Ile-de-France et des opérateurs de transport(entre autres), une Enquête Mobilité par GNSS (EMG) à l’échelle régionale, en vue de mieux connaître la mobilité des Franciliens. Cette enquête est particulièrement pertinente dans cette période post-pandémie où la notion de jour moyen est remise en cause, avec des habitudes de déplacement fortement impactées par le télétravail.
L’enquête, menée sur un échantillon d’environ 3300 participants représentatif de la population francilienne de 16 à 80 ans, a respecté une méthodologie rigoureuse de collecte impliquant (i) une pré-enquête en ligne (caractéristiques socio-économiques et habitudes de déplacement), (ii) une enquête sur 7 jours consécutifs, où les enquêtés portent un boîtier GPS et remplissent un journal de bord, et (iii) une analyse automatisée des traces suivie d’une post-enquête téléphonique de vérification. Cette enquête offre un cadre intéressant pour les travaux que nous souhaitons mener dans la thèse, car les données collectées présentent à la fois les avantages des traces numériques et celles des enquêtes traditionnelles. Les données sont collectées sur une semaine, avec les traces GPS des usagers ainsi que les méta-données associées.
Objectifs
Dans cette thèse, nous nous proposons d’étudier les questions relatives à la représentativité d’un jeu de données numériques, en prenant pour point de départ l’Enquête Mobilité par GNSS réalisée par l’Institut Paris Région. Cette source de données est particulièrement intéressante car elle cumule plusieurs avantages:
- Représentativité ;
- Très bonnes résolutions spatiale et temporelle (suivi GPS) ;
- Suivi longitudinal sur une semaine, qui permet d’accéder à une connaissance nouvelle des stratégies de déplacements sur plusieurs jours ;
- Présence de méta-données (âge, sexe, catégorie socio-professionnelle...).
Identifier quelles caractéristiques sont plus facilement inférables, dans quel contexte, avec quel degré de certitude, et pour différents degrés de dégradation de la source initiale, seront les questions abordées durant cette thèse à l’aide des données de l’EMG. Dans ce contexte, une attention particulière sera portée à l’étude des biais que de tels traitements pourraient introduire. Par exemple, il a été montré que la qualité de l’inférence des lieux de travail et de domicile était influencée par le type de travail (temps partiel...) et par les caractéristiques socio-démographiques des individus [8].
Méthodologie
La thèse portera sur le développement de méthodes d’inférence permettant de reconstruire différentes caractéristiques pertinentes (ex. socio-démographiques) pour mesurer la représentativité d’un jeu de données, en explorant différentes modélisations utilisées pour s’attaquer à ce type de problème [9,10,11] (réseaux Bayésiens, apprentissage statistique, réseaux profonds) et en proposant de nouvelles solutions.
Les limites techniques et les risques associés à chacune de ces méthodes seront étudiés, afin de pouvoir proposer un cadre d’application robuste. La transposabilité des méthodes à d’autres jeux de données (ex. de type SDK, billettique...) sera également au cœur du travail de thèse. Pour ce faire, la thèse explorera l’intérêt et l’apport des méthodes et des informations annexes (ex. POI, données INSEE) sur des versions plus ou moins dégradées du jeu de données initial.
Le programme de travail prévu sur les trois années de thèse est donc le suivant :
- Revue de littérature
- Recherche de représentations/ transformations pertinentes des «trajectoires» (ex. à partir des distances parcourues, du programme d’activités, de la diversité des modes utilisés sur une semaine...)
- Mise au point, à partir de la littérature, d’un ou plusieurs modèles d’inférence (ex. modèle statistique, machine learning...) des caractéristiques pertinentes, sur la base des données de l’EMG
- Mise au point d’indicateurs pour évaluer les méthodes d’inférence
- Analyse détaillée des performances et évaluations comparées
- Mise au point de différents scénarios de dégradation de la donnée source
- Evaluation des résultats sur les versions dégradées des données de l’EMG, et discussions sur la transposabilité de la méthode et la vulnérabilité des données de type «trajectoire»
- Mise en œuvre du modèle d’inférence sur d’autres sources de données (billettique, par exemple).
Le ou la candidat.e retenu.e doit posséder les qualifications suivantes :
- Un M2 en informatique, en statistiques, en ingénierie des transports, en apprentissage automatique ou dans d'autres domaines fortement liés aux transports.
- Excellentes capacités d'analyse et de communication en anglais, tant à l'oral qu'à l'écrit.
- Capacité à travailler de manière indépendante et à assumer la responsabilité de l'avancement et de la qualité du projet.
- Expérience de la collecte de données, de l'analyse statistique et de l'exploration de données, ainsi que de l'analyse de données géospatiales.
- Très bonnes compétences en programmation.
Contacts : etienne.come@univ-eiffel.fr, latifa.oukhellou@univ-eiffel.fr
Références
[1] Understanding individual mobility patterns from urban sensing data: A mobile phone trace example, Francesco Calabrese, Mi Diao, Giusy Di Lorenzo, Joseph Ferreira and Carlo Ratti, Transportation Research Part C: Emerging Technologies, 26 301-313, 2013.
[2] Understanding individual human mobility patterns, González M., Hidalgo C. and Barabási, A., Nature, 453, 779-782, 2008.
[3] Biases in human mobility data impact epidemic modeling, Frank Schlosser, Vedran Sekara, Dirk Brockmann and Manuel Garcia-Herranz, arXiv:20112.12521, 2021.
[4] Zooming into individuals to understand the collective: A review of trajectory-based travel behaviour studies, Yang Yue, Tian Lan, Anthony G.O. Yehand Qing-Quan Li, Travel Behaviour and Society, 1:2, 69-78, 2014.
[5] From traces to trajectories: How well can we guess activity locations from mobile phone traces? Cynthia Chen, Ling Bianand Jingtao Ma, Transportation Research Part C: Emerging Technologies, 46, 326-337, 2014.
[6] Residency and worker status identification based on mobile device location data, Yixuan Pan, Qianqian Sun, Mofeng Yang, Aref Darzi, Guangchen Zhao, Aliakbar Kabiri, Chenfeng Xiongand Lei Zhang, Transportation Research Part C: Emerging Technologies, 146, 103956, 2023.
[7] An analytical framework to nowcast well-being using mobile phone data, Pappalardo L., Vanhoof M., Gabrielli L., Smoreda Z., Pedreschi D.and Giannotti F., International Journal of Data Science and Analytics 75(92), 2016.
[8] Algorithm-induced biases in data representativeness: the case of activity inference from mobile phone traces, Chrétien J., American Association of Geographers Annual Meeting, 2016.
[9] A holistic data-driven framework for developing a complete profile of bus passengers, Siyuan Chen, Xin Liu, Cheng Lyu, Ljubo Vlacic, Tianli Tangand Zhiyuan Liu, Transportation Research Part A: Policy and Practice, 173, 2023.
[10] Inferring the Economic Attributes of Urban Rail Transit Passengers Based on Individual Mobility Using Multisource Data, Zhu Y., Chen F., Li M. and Wang Z., Sustainability, 10, 4178, https://doi.org/10.3390/su10114178, 2018.
[11] Modelling socioeconomic attributes of public transit passengers, Faroqi, Hamed, et al., Journal of Geographical Systems, Gale Academic, vol. 22, no. 4, pp. 519+, Oct. 2020.