Analyse lexicale et navigation dans les débats des présidentielles

Encadrants : 

Occurrences : 

2015

Nombre d'étudiants minimum: 

4

Nombre d'étudiants maximum: 

6

Nombre d'instances : 

1

Comment évoluent les stratégies de communication adoptées par les candidats lors des élections présidentielles ? Quels sont les thèmes de prédilection des candidats lors d’une élection? Ces analyses, réalisées par des sociologues et des journalistes, font de plus en plus appel à des techniques de fouilles de données textuelles avec le récent engouement de la communauté journalistique pour le “data-journalisme” ou journalisme de données.

De manière générale, la fouille de données ou data mining consiste en le développement de méthodes pour l’exploration et l’analyse de gros volumes de données. L’objectif est de faire émerger de ces données des structures à l’origine invisibles par un analyste humain. Les méthodes impliquées relèvent des domaines de l’intelligence artificielle, de l’apprentissage, des statistiques et des systèmes de bases de données.

L’objectif de ce projet est d’imaginer et de développer une interface de navigation dans les transcriptions des débats des présidentielles qui permettent aux journalistes et sociologues d’étayer leurs analyses.

Cette interface pourra proposer :

  • des méthodes statistiques de fouille de données textuelles intégrant différents niveaux de complexité (ex: fréquences de mots, calcul de similarité, classification), afin d’extraire par exemple les caractéristiques lexicales discriminant les débats d’un candidat par rapport à un autre.
  • une interface de visualisation des résultats des analyses et de navigation dans les débats sera imaginée et développée.