La faculté Vector présente un nouveau modèle de transfert de style musical à l'ICLR

6 mai 2019

Par Ian Gormely

L'intelligence artificielle, en particulier les domaines de l'apprentissage automatique et de l'apprentissage profond, bouleverse presque tous les secteurs imaginables, y compris le monde de l'art. Pourtant, de nombreux artistes adoptent la technologie pour les nouvelles opportunités créatives qu'elle apporte.

"La caméra n'a pas empêché les gens de peindre", note Sageev Oore, membre du corps enseignant de l'Institut Vecteur, professeur associé d'informatique à l'Université Dalhousie et pianiste de jazz, "mais elle a changé l'attention des gens".

Oore et son collègue Roger Grosse, membre de la faculté, ainsi qu'une équipe d'étudiants affiliés à Vector, dont Sicong Huang, Qiyang Li, Cem Anil et Xuchan Bao, font partie du nombre restreint mais croissant de personnes qui explorent l'intersection de l'IA et de la musique. TimbreTron, un modèle de transfert de style musical qu'ils ont dévoilé dans leur récent article de recherche intitulé "TimbreTron : A WaveNet(CycleGAN(CQT(Audio))) Pipeline for Musical Timbre Transfer", est leur preuve de concept.

L'article, que Grosse et Oore présentent ce mois-ci à l'International Conference on Learning Representations (ICLR) - l'une des plus importantes conférences mondiales sur l'apprentissage automatique -, détaille une méthode permettant de "prendre un enregistrement musical joué par un instrument et de le faire sonner comme s'il avait été joué par un autre instrument", explique Grosse, "tout en préservant autant que possible le contenu, notamment la hauteur, le rythme et, dans une certaine mesure, l'expressivité".
Le timbre, c'est-à-dire la sonorité d'un instrument donné, est notoirement difficile à modéliser. Mais Oore, Grosse et leurs équipes ont contourné le problème en transformant les formes d'ondes audio d'un morceau de piano en images, plus précisément en spectrogrammes CQT. À l'aide d'un modèle de transfert de style appelé CycleGAN, ils ont transformé le spectrogramme de piano en un spectrogramme de clavecin du même morceau. Ils ont ensuite utilisé le modèle WaveNet de Google Deepmind pour retransformer le tout en forme d'onde audio, sauf que ce qui était un piano sonne désormais comme un clavecin. Le système permet également aux utilisateurs de modifier le tempo d'un morceau sans en modifier la hauteur (ce qui annule l'effet"chipmunk") ou de modifier la hauteur sans affecter le tempo.

Le projet a été lancé par Huang, qui souhaitait travailler sur un projet d'IA lié à la musique. À l'époque, le modèle CycleGAN était nouveau et "semblait une chose naturelle à essayer", se souvient M. Grosse, qui ne se considère pas comme un musicien. Il a fait appel à Oore, qui avait déjà travaillé sur la combinaison de la musique et de l'apprentissage automatique, notamment dans le cadre du projet Magenta de Google visant à intégrer l'apprentissage automatique dans les domaines créatifs. "C'est vraiment dans ses cordes.

Compte tenu de son double intérêt pour le projet, Oore a, sans surprise, des raisons différentes, mais complémentaires, de vouloir y participer. Son côté informaticien s'intéresse à la quantité de contrôle que les programmeurs sont capables d'exercer lorsqu'ils recréent du son et aux limites de ce contrôle. "Nous comprenons mieux l'espace audio et nous comprenons mieux les systèmes de réseaux neuronaux pour contrôler et générer un espace audio.

Cela dit, "du point de vue d'un outil créatif, ce qui est vraiment intéressant, c'est de casser l'outil", déclare M. Oore, rappelant ce que Doug Eck, de Magenta, dit souvent. Les logiciels de correction de la hauteur de la voix comme Auto-Tune ont été commercialisés à l'origine pour "réparer" numériquement les voix désaccordées. Mais les artistes, de Cher à T-Pain, étaient plus intéressés par les façons non naturelles dont ces logiciels pouvaient modifier la voix humaine. Oore est également curieux d'entendre d'autres sons que le TimbreTron pourrait générer. "S'il ne produit pas exactement un son de piano, mais quelque chose qui ressemble à un croisement entre un clavecin et un piano, ce serait plus cool.

En rapport :

Des protocoles normalisés sont essentiels pour un déploiement responsable des modèles linguistiques

Les inconnues connues : Geoff Pleiss, chercheur chez Vector, se penche sur l'incertitude pour rendre les modèles de ML plus précis.

Un homme regarde un tableau blanc sur lequel sont inscrites des formules en rouge.
Perspectives
Une IA digne de confiance

Comment mettre en œuvre des systèmes d'IA en toute sécurité