Affiliations

Encadrants : 

Occurrences : 

2018

Nombre d'étudiants minimum: 

2

Nombre d'étudiants maximum: 

4

Nombre d'instances : 

1

Ce projet est une contribution au suivi du parcours géographique professionnel des chercheurs.

Le principe est d’utiliser une publication d’un chercheur, de récupérer la date de publication, d’extraire l’affiliation associée à l’article, de géolocaliser cette affiliation. Cette opération sera répétée sur une série de publications permet de déduire un parcours professionnel.

Cette tâche s’exprime simplement. Elle se révèle en fait complexe.

Ce projet propose de tester et d’évaluer diverses techniques pour récupérer les affiliations successives d’un chercheur. Certaines méthodes pourront être basées sur des heuristiques simples, d’autres sur l’utilisation de méthodes avancées d’apprentissage (machine learning), enfin d’autres sur la consultation de bases bibliographiques.

Le projet sera mené dans un esprit d’expérimentation scientifique. Un ensemble de résultats de référence sera constitué ; cet ensemble associera un chercheur, un article et une affiliation. Il permettra d’évaluer sur cet ensemble la pertinence des résultats obtenus par les différentes méthodes. Une partie de cet ensemble pourra aussi être utilisé pour les méthodes d’apprentissage.

Ce projet nécessitera de programmer. Les langages envisagés sont Java et Python en s’appuyant sur des bibliothèques facilitant la plupart des traitements (notamment Grobid pour extraire le contenu de fichiers PDF, gensim pour des techniques d’apprentissage).

Dans le cadre de votre projet, vous devrez

  • Produire un comparatif de différentes méthodes d’extraction d’affiliation de chercheur à partir d’articles
  • Eventuellement, illustrer graphiquement des parcours obtenus (carte)

Ce projet s’adresse à des étudiants ayant de bonnes bases de programmation Java et Python et désireux de se confronter à des méthodes d’apprentissage et une approche scientifique d’évaluation de résultats.