Exploration et visualisation d'un Internet de première nécessité

Encadrants : 

Occurrences : 

2018

Nombre d'étudiants minimum: 

6

Nombre d'étudiants maximum: 

8

Nombre d'instances : 

1

Exploration et visualisation d'un Internet de première nécessité : analyser les traces de navigation Web des postes Internet Libre de la Bibliothèque Publique d'Information (BPI) du Centre Pompidou.

La Bibliothèque Publique d'Information (BPI) du Centre Pompidou met à la disposition de ses usagers prêt de 200 postes informatique avec accès libre à Internet. Répartis sur les trois étages de la bibliothèque, ces postes offrent aux visiteurs une connexion au Web gratuite et anonymisée. Ce service permet à un public souvent précaire (personnes seules, sans abris, migrants, ...) de suivre les actualités, de se cultiver, d'effectuer diverses démarches administratives en ligne ou tout simplement d'occuper ses journées.

Le DiasporasLab de Télécom ParisTech souhaiterait, en collaboration avec le département Étude et Recherche de la BPI, étudier les diverses dimensions de cet usage particulier d'Internet qui est observé à la bibliothèque. La BPI envisage à terme de développer des services d'accompagnement et d'aide dédiés à ses visiteurs précaires. Pour mener cette étude, le DiasporasLab a eu accès à la base de données des logs de navigation Web de l'ensemble des postes Internet libre de la BPI. Les logs de navigation Web sont des fichiers textes agrégeant ligne par ligne des URLs horodatées et générées par l'accès à un site Internet depuis la BPI. Chaque jours, ce sont des millions de logs de navigation qui sont filtrés et traités par un moteur de recherche dédié. Depuis ce moteur de recherche il est possible de requêter et d'interroger l'ensemble de des logs.

L'idée de ce projet PAF est d'explorer, visualiser et analyser les logs de navigation Web de la BPI suivant les principes de l'Analyse Exploratoire des Données1. Le projet pourra être articulé en trois moments :

1. Découverte et extraction des données

Les étudiant devront dans un premier temps saisir les particularités de cette base données : la nature des divers paramètres et champs qui la compose. Ils seront amenés à se rendre à la BPI, accompagné d'un chercheur de la bibliothèque, afin de comprendre la manière dont sont générés les logs. Partant de cette observation, les étudiants devront définir d'eux même des sous ensembles thématiques à analyser : URLs des sites de news, des sites administratifs, des sites de traduction, … Chaque corpus extrait devra traduire un ou plusieurs aspects de la réalité du Web à la BPI.

2. Analyse et exploration

Derrière chaque URL enregistrée dans les fichiers de logs de navigation se cache une page Web visitée par un usager de la bibliothèque. Il pourra être envisagé de développer un petit scraper2 capable d'extraire de l'information de ces pages. Il serait, par exemple, intéressant d'expérimenter des techniques simples d'Analyse Automatique du Langage Naturel pour étudier statistiquement le titre des articles de presse en ligne lus depuis la bibliothèque. Les étudiants seront encouragés à proposer d'eux même d'autres pistes d'analyse.

3. Visualisation

La visualisation de données est une étape importante de toute exploration de données. Les étudiants devront proposer des visualisations (basées par exemple sur la librairie d3.js ou processing) afin de rendre compte avec clarté des résultats de leurs analyses. Il sera demandé aux étudiants de réaliser à la fin du projet un petit site Web présentant l'ensemble de leurs résultats et visualisations.

 

Chacune de ses étapes devra se faire en collaboration avec les autres. L'idéal serait d'avoir entre 6 et 8 étudiants motivés, capables de se répartir les tâches tout en travaillant de concert. La prise d’initiative sera fortement encouragée. Le seul prérequis demandé est d'être un minimum autonome et à l'aise avec l'un des langages de programmation suivant : python, java ou javascript.

Ce projet sera l'occasion pour les étudiants de découvrir et de s'essayer à l'Analyse Exploratoire de Données. Tout au long des deux semaines de travail, des méthodes et outils leurs seront présentés. Des rencontres avec des chercheurs de Télécom ParisTech, de la BPI et un spécialiste de la visualisation de données (George Legrady de l'université de Santa Barbara) jalonneront ce projet.

À l'heure de la remise en compte généralisée de l'usage des données personnelles que nous laissons tous sur le Web, ce projet PAF sera enfin l'occasion pour les étudiants de découvrir et de proposer une analyse portée par des questions et des valeurs humanistes et sociales.

1 : Voir https://en.wikipedia.org/wiki/Exploratory_data_analysis
2 : Voir https://fr.wikipedia.org/wiki/Web_scraping