Nettoyage, exploration et visualisation d'un jeu de données portant sur l'accueil de réfugiés par des français : le programme CALM.

Encadrants : 

Quentin Lobbé (C212 – 214), Dana Diminescu (F406)

Occurrences : 

2017

Nombre d'étudiants minimum: 

4

Nombre d'étudiants maximum: 

8

Nombre d'instances : 

1

CALM ( Comme À La Maison ) est un programme de mise en relation de l'association SINGA France visant à connecter des personnes réfugiées à la recherche d’un accueil temporaire avec des particuliers disposant d’une chambre pour les accueillir. Le DiasporasLab de TélécomParisTech souhaiterait, en partenariat avec SINGA, étudier statistiquement les diverses dimensions de ses propositions d’accueil. Pour ce faire, le DiasporasLab a eu accès à la base de données des quelques 7000 familles inscrites sur la plate-forme CALM. Cette base de données tient en un formulaire excel, qui renseigne la date de naissance, l'adresse, le type de logement ou encore une lettre de motivation associée à chaque famille quant à sa volonté d’accueillir une personne réfugiée.

L'idée du projet est de nettoyer, explorer et visualiser cette base de donnée. Ce projet peut être découpé en trois modules menés conjointement par des binômes au sein du groupe d'étudiants, sélectionné.

1/ Nettoyage

La base de données s’étalant sur 3 années et corresponde à trois versions successives de la plateforme, des champs ont pu évoluer ou disparaître ( ex : date de naissance vs âge ). Il convient dans un premier, d’harmoniser et de nettoyer l'ensemble des valeurs de la base données. Cette étape pourra se faire à la main ou de manière automatique selon le jugement des étudiants. Il s’agira enfin de déposer ces données dans un SGBD requêtable, type Postgresql.

2/ Analyse automatique du texte

La base de données CALM est constituée en grande partie des informations sur la profession, l'âge, parfois l'état civil des Français inscrits sur la plateforme Calm, mais aussi de données texte: des notes d'intentions ou des lettres de motivation de familles souhaitant accueillir une personne réfugiée, l'espace qu'ils peuvent mettre à la disposition des réfugié, Il serait ici intéressant d'utiliser et d'expérimenter des techniques simples d'Analyse du Langage Naturel afin d'extraire et de comprendre le vocabulaire de l’accueil. (analyse du sentiments, des mots clé les plus significatifs, etc). Il pourra être proposer des modalité innovantes d'exploration de la base de données, par exemple : un nuage de mots clés donnant accès aux lettres de motivation concernées.

3/ Visualisation par dimensions

En plus des données textes, comme évoqué plus haut, la base propose un certains nombre d'information plus structurées ( l'âge des accueillants, leur emplacement géographique, le type de logement proposé … ). Il serait intéressant de construire une interface de visualisation ( basée par exemple sur d3.js ) qui permettrait d'interroger la base suivant toutes ses dimensions. Par exemple voir la répartition des accueillants par âge et région, ou le type de logement proposé par département … etc.

Chacune de ses étapes devant se faire conjointement et en collaboration avec les autres, l'idéal serait d'avoir 6 étudiants motivés, capables de se répartir les tâches entre 3 binômes et de travailler de concert. Ce projet PAF permettra aux étudiants de développer leur capacité à travailler en groupe et à entretenir tout au long des deux semaines une synergie entre chacune des équipes. Il leur permettra enfin, de découvrir un usage de l'analyse des données porté sur des valeurs humanistes et bienveillantes.