Scalogramme en ondelettes de neuf arpèges AM/FM

Apprentissage de variété riemannienne pour l'analyse-synthèse de signaux non stationnaires

Communications dans un congrès

Auteurs : Han Han, Vincent Lostanlen, Mathieu Lagrange.

Conférence : XXIXème Colloque Francophone de Traitement du Signal et des Images (GRETSI 2023 )

Date de publication : 2023

Lien vers le dépot HAL

Abstract


La transformation de sons par ordinateur pose un problème inverse d'identification des paramètres de resynthèse adéquats. Empruntant au formalisme du traitement du signal différentiable (DDSP), nous proposons d'automatiser sa résolution par entrainement d'un réseau de neurones profond. Dans ce contexte, nous visons un compromis entre l'efficacité computationnelle de la perte paramétrique et la fidélité psychoacoustique de la perte spectrale. Notre approche, baptisée perceptuelle-neuronalephysique (PNP), consiste à estimer la métrique riemannienne associée à la composition entre synthèse paramétrique et diffusion temps-fréquence (JTFS). Ce faisant, nous linéarisons localement la perte spectrale et accélérons la convergence. De plus, le recours à une régularisation de Tikhonov améliore le conditionnement du problème inverse. Par rapport à l'état de l'art (wav2shape et DDSP), et pour une tâche difficile d'analyse-synthèse d'arpège musical, l'entrainement via PNP rapproche le signal reconstruit du signal de référence, d'après une mesure de similarité de timbre fondée sur la JTFS.