Analyse de publications scientifiques – Visualisation des résultats

Encadrants : 

Occurrences : 

2016

Nombre d'étudiants minimum: 

2

Nombre d'étudiants maximum: 

4

Nombre d'instances : 

1

L’organisation de la recherche au niveau international conduit à une intensification des efforts de publication. Un mouvement est en marche pour favoriser l’exploitation de ces publications tant par les autres chercheurs que par les industriels et les startups. Cela passe notamment par une analyse des publications scientifiques afin de produire des outils d’aide à leur exploitation : liens entre publications, classements thématiques…

Ce projet vise à analyser un corpus de plus de 400 publications de Telecom ParisTech en utilisant des techniques de NLP (Natural Language Processing) et de représentation sémantique de connaissances.

Dans les limites de ce projet, on déterminera pour chaque document un vecteur de mots représentatifs du document. Eventuellement, on cherchera à réduire le nombre de mots utilisés en les regroupant par thématique. Pour une série temporelle d’articles –par exemple, tous les articles d’un auteur- on donnera une représentation visuelle de l’évolution des mots importants.

Ce projet nécessitera de programmer en Python (pour les traitements) et javascript (pour la visualisation) en s’appuyant sur des bibliothèques facilitant la plupart des traitements (NLTK pour Python et D3 pour javascript).

Dans le cadre de votre projet, vous devrez

  • Calculer les coefficients TfIdf pour les documents du corpus

  • Trouver des regroupements de mots (cluster, fusion sémantique)

  • Produire une représentation visuelle de l’importance d’un mot ou d’un ensemble de mots dans une suite de documents

Ce projet s’adresse à des étudiants à l’aise en Python et désireux de se confronter au traitement d’ensemble de données textuelles.