La faculté Vector présente un nouveau modèle de transfert de style musical à l'ICLR

6 mai 2019

2019 Blog Apprentissage machine Recherche Recherche 2019

Par Ian Gormely

L'intelligence artificielle, en particulier les domaines de l'apprentissage automatique et de l'apprentissage profond, bouleverse presque tous les secteurs imaginables, y compris le monde de l'art. Pourtant, de nombreux artistes adoptent la technologie pour les nouvelles opportunités créatives qu'elle apporte.

"La caméra n'a pas empêché les gens de peindre", note Sageev Oore, membre du corps enseignant de l'Institut Vecteur, professeur associé d'informatique à l'Université Dalhousie et pianiste de jazz, "mais elle a changé l'attention des gens".

Oore et son collègue Roger Grosse, membre de la faculté, ainsi qu'une équipe d'étudiants affiliés à Vector, dont Sicong Huang, Qiyang Li, Cem Anil et Xuchan Bao, font partie du nombre restreint mais croissant de personnes qui explorent l'intersection de l'IA et de la musique. TimbreTron, un modèle de transfert de style musical qu'ils ont dévoilé dans leur récent article de recherche intitulé "TimbreTron : A WaveNet(CycleGAN(CQT(Audio))) Pipeline for Musical Timbre Transfer", est leur preuve de concept.

L'article, que Grosse et Oore présentent ce mois-ci à l'International Conference on Learning Representations (ICLR) - l'une des plus importantes conférences mondiales sur l'apprentissage automatique -, détaille une méthode permettant de "prendre un enregistrement musical joué par un instrument et de le faire sonner comme s'il avait été joué par un autre instrument", explique Grosse, "tout en préservant autant que possible le contenu, notamment la hauteur, le rythme et, dans une certaine mesure, l'expressivité".
Le timbre, c'est-à-dire la sonorité d'un instrument donné, est notoirement difficile à modéliser. Mais Oore, Grosse et leurs équipes ont contourné le problème en transformant les formes d'ondes audio d'un morceau de piano en images, plus précisément en spectrogrammes CQT. À l'aide d'un modèle de transfert de style appelé CycleGAN, ils ont transformé le spectrogramme de piano en un spectrogramme de clavecin du même morceau. Ils ont ensuite utilisé le modèle WaveNet de Google Deepmind pour retransformer le tout en forme d'onde audio, sauf que ce qui était un piano sonne désormais comme un clavecin. Le système permet également aux utilisateurs de modifier le tempo d'un morceau sans en modifier la hauteur (ce qui annule l'effet"chipmunk") ou de modifier la hauteur sans affecter le tempo.

Le projet a été lancé par Huang, qui souhaitait travailler sur un projet d'IA lié à la musique. À l'époque, le modèle CycleGAN était nouveau et "semblait une chose naturelle à essayer", se souvient M. Grosse, qui ne se considère pas comme un musicien. Il a fait appel à Oore, qui avait déjà travaillé sur la combinaison de la musique et de l'apprentissage automatique, notamment dans le cadre du projet Magenta de Google visant à intégrer l'apprentissage automatique dans les domaines créatifs. "C'est vraiment dans ses cordes.

Compte tenu de son double intérêt pour le projet, Oore a, sans surprise, des raisons différentes, mais complémentaires, de vouloir y participer. Son côté informaticien s'intéresse à la quantité de contrôle que les programmeurs sont capables d'exercer lorsqu'ils recréent du son et aux limites de ce contrôle. "Nous comprenons mieux l'espace audio et nous comprenons mieux les systèmes de réseaux neuronaux pour contrôler et générer un espace audio.

Cela dit, "du point de vue d'un outil créatif, ce qui est vraiment intéressant, c'est de casser l'outil", déclare M. Oore, rappelant ce que Doug Eck, de Magenta, dit souvent. Les logiciels de correction de la hauteur de la voix comme Auto-Tune ont été commercialisés à l'origine pour "réparer" numériquement les voix désaccordées. Mais les artistes, de Cher à T-Pain, étaient plus intéressés par les façons non naturelles dont ces logiciels pouvaient modifier la voix humaine. Oore est également curieux d'entendre d'autres sons que le TimbreTron pourrait générer. "S'il ne produit pas exactement un son de piano, mais quelque chose qui ressemble à un croisement entre un clavecin et un piano, ce serait plus cool.

En rapport :

2024
Étude de cas
Recherche
Recherche 2024

BMO, TELUS et leurs partenaires utilisent la boîte à outils Vector AI pour appliquer les techniques de vision par ordinateur dans la lutte contre les changements climatiques

2024
Recherche
Recherche 2024

Les chercheurs de Vector présentent plus d'une douzaine d'articles à CVPR 2024

2024
Recherche
Recherche 2024

L'atelier sur la vision par ordinateur de l'institut Vector présente les capacités actuelles et le potentiel futur de ce domaine.