Surveillance audio : détection d’évènements acoustiques dans des scènes sonores

Encadrants : 

Occurrences : 

2016

Nombre d'étudiants minimum: 

2

Nombre d'étudiants maximum: 

3

Nombre d'instances : 

1

Les systèmes de vidéo surveillance sont de plus en plus présents dans les grandes villes et les lieux touristiques. Mais que se passe-t-il lorsque l’image n’est pas disponible ou qu’un évènement potentiellement dangereux survient hors du champ de vision des caméras ? Certains projets prévoient d’équiper les rues des grandes métropoles en microphones (comme à New York https://wp.nyu.edu/sonyc/). C’est entre autre à cela que s’intéresse le domaine du machine listening : essayer d’extraire le maximum d’informations d’un enregistrement audio. Cela inclut : essayer d’identifier les locuteurs, le lieu de la scène sonore ou encore les évènements saillants s’y produisant.

Dans ce projet on s’intéressera plus particulièrement à la détection d’évènements acoustiques dans un enregistrement. Il s’agit d’apprendre les caractéristiques acoustiques d’évènements d’intérêt dans une base d’apprentissage afin d’être capable d’identifier leurs occurrences dans des enregistrements potentiellement bruités. A la frontière entre le traitement du signal et l’apprentissage machine, c’est un problème qui connait un intérêt croissant dans la recherche audio. En plus de reprendre certaines bases du traitement du signal, cette application permet une introduction aux techniques d’apprentissage de dictionnaires ainsi qu’une technique simplifiée pour traiter un problème de classification multi-labels.

Dans le cadre de votre projet, vous devrez :

  • Chercher et implémenter une représentation temps-fréquence adaptée à la tâche (STFT, Mel-Spectre…)

  • Mettre en place une factorisation en matrices non-négatives (NMF) pour apprendre un dictionnaire de de motifs spectraux caractéristiques pour chaque évènement.

  • Projeter et post-traiter les projections d’enregistrements sur ce dictionnaire pour détecter les activations des évènements recherchés puis d’être capable de générer des fichiers d’annotation.

  • Vous pourrez également générer des scénarios en mixant des évènements dangereux (cris, tirs, éclats de verre…) dans des fonds sonores urbains réels.