Le 30 mai 2024 à Blois, se tenait le sixième symposium du GDR MaDICS : masses de données, informations et connaissances en sciences. Dans le cadre de l’action “Musiscale : modélisation multi-échelles de masses de données musicales”, j’ai présenté les travaux de l’équipe sur la diffusion en ondelettes (scattering transform) ainsi que sur les réseaux de neurones multirésolution (MuReNN pour multi-resolution neural networks).
Site officiel de l’action Musiscale : https://www.madics.fr/actions/musiscale/
Site officiel du symposium MaDICS : https://www.madics.fr/event/symposium-madics-6/
Depuis environ dix ans, le domaine de la recherche d’information dans la musique (MIR pour music information retrieval) connait une transformation majeure, qui se manifeste par le développement d’algorithmes d’apprentissage profond (deep learning) ; en particulier, des réseaux de neurones convolutifs (convnets). Ces algorithmes peuvent être entrainés sur des données massives, parfois sans annotation experte, et sans autre a priori que la définition d’une fonction objectif.
Dans cet exposé, je commencerai par expliquer certains des succès des convnets à partir des notions mathématiques d’équivariance et d’invariance. Ensuite, je signalerai une faiblesse des convnets ayant trait à leur complexité calculatoire et leur champ réceptif restreint. À partir de mon travail sur la diffusion en ondelettes (scattering transform), je montrerai que les similarités perçues de timbre et de texture peuvent être caractérisées efficacement sur des échelles multiples avec peu ou pas d’apprentissage.
Je conclurai en présentant le projet en cours “Réseaux de neurones multirésolution” (MuReNN pour Multi-Resolution Neural Networks) dont l’ambition est d’offrir un modèle guidé par les données, efficace à l’apprentissage comme à l’inférence, et capable d’atteindre des champs réceptifs de plusieurs millions d’échantillons audio.