Apprentissage avec contrainte de coût sur les caractéristiques / Machine with budget constraints on features

Encadrants : 

Occurrences : 

2019

Nombre d'étudiants minimum: 

2

Nombre d'étudiants maximum: 

4

Nombre d'instances : 

1

En machine learning classique, un problème arrive souvent présenté comme un ensemble de point de données annotées. Ces données peuvent en général être représentées dans un espace vectoriel dont la totalité ou une partie des dimensions est disponible. À partir de ces points, un modèle peut être appris afin de déduire depuis les caractéristiques en entrée les annotations recherchées. Par exemple, il est possible de prédire l’espèce d’un iris à partir des caractéristiques de la fleur telles que la longueur des sépales ou des pétales (https://fr.wikipedia.org/wiki/Iris_de_Fisher).

Dans certains cas, obtenir les annotations a un coût élevé et il faut donc optimiser pour annoter les points les plus importants. C’est ce que l’on appelle l’active learning.

Dans d’autres cas, qui sont moins étudiés, l’accès aux caractéristiques d’un point de donnée peut avoir un coût. Par exemple, on peut obtenir des informations très précieuses en faisant des requêtes à certaines API comme Google Books. Ce dernier donne des informations sur l’utilisation de la langue dans les livres, même contemporains mais l’accès est très limité. Le coût, en plus d’être financier, peut être temporel : certaines caractéristiques peuvent prendre du temps à calculer et il faut donc les calculer qu’en cas de nécessité élevée.

Le but de ce projet sera de modéliser des caractéristiques coûteuse en argent ou en temps et de construire des modèles pouvant s’adapter aux données déjà disponibles et pouvant demander de nouvelles caractéristiques pour améliorer la précision des prédictions. Les élèves devront mettre en place des baselines et chercheront à les améliorer.

L’élèves apprendra les bases du machine learning et sera confronté à un problématique de recherche.

Python sera privilégié pour programmer un prototype. Des problématiques du Web Sémantique pourront être abordés.