La faculté vectorielle adopte un nouveau modèle de transfert de style musical à l’ICLR
6 mai 2019
6 mai 2019
Par Ian Gormely
L’intelligence artificielle, en particulier les domaines de l’apprentissage automatique et de l’apprentissage profond, bouleverse presque tous les secteurs imaginables — même le monde de l’art. Pourtant, de nombreux artistes adoptent cette technologie pour les nouvelles opportunités créatives qu’elle offre.
« La caméra n’a pas fait arrêter les gens de peindre », note Sageev Oore, membre du corps professoral du Vector Institute et professeur agrégé d’informatique à l’Université Dalhousie et pianiste de jazz, « mais elle a changé ce sur quoi les gens se concentraient. »
Oore et son collègue professeur Roger Grosse, ainsi qu’une équipe d’étudiants affiliés à Vector comprenant Sicong Huang, Qiyang Li, Cem Anil et Xuchan Bao, font partie du petit mais croissant nombre de personnes qui explorent l’intersection entre l’IA et la musique. TimbreTron, un modèle de transfert de style musical qu’ils ont dévoilé dans leur récent article de recherche « TimbreTron : A WaveNet(CycleGAN(CQT(Audio))) Pipeline for Musical Timbre Transfer », est leur preuve de concept.
L’article, que Grosse et Oore présentent lors de la Conférence internationale sur les représentations d’apprentissage (ICLR ) de ce mois-ci – l’une des plus grandes conférences mondiales sur l’apprentissage automatique –, détaille une méthode pour « prendre un enregistrement musical joué par un instrument et le faire sonner comme s’il avait été joué par un autre instrument », dit Grosse, « tout en préservant autant que possible le contenu, y compris la hauteur, le rythme et, dans une certaine mesure, l’expressivité. »
Le timbre, le son d’un instrument donné, est notoirement difficile à modéliser. Mais Oore, Grosse et leurs équipes ont contourné le problème en transformant les formes d’onde audio d’une pièce de piano en images, plus précisément des spectrogrammes CQT. En utilisant un modèle de transfert de style appelé CycleGAN, ils ont transformé le spectrogramme de piano en spectrogramme de clavecin de la même pièce. Ils ont ensuite utilisé le modèle WaveNet de Google Deepmind pour retransformer tout en forme d’onde audio, sauf que ce qui était autrefois un piano sonne maintenant comme un clavecin. Le système permet aussi aux utilisateurs de modifier le tempo d’un morceau sans modifier la hauteur (annulant « l’effet tamia ») ou de changer la hauteur sans affecter le tempo.
Le projet a vu le jour avec Huang, qui voulait travailler sur un projet d’IA lié à la musique. À l’époque, le modèle CycleGAN était nouveau et « semblait naturel à essayer », se souvient Grosse, qui ne se considère pas comme musicien. Il a fait venir Oore, qui avait déjà travaillé en combinaison musique et apprentissage automatique, notamment un passage au projet Magenta de Google pour intégrer l’apprentissage automatique dans des domaines créatifs. « C’est vraiment son genre. »
Compte tenu de ses intérêts opposés dans le projet, Oore a, sans surprise, des raisons différentes, bien que complémentaires, de vouloir y participer. Son côté informaticien s’intéresse à la quantité de contrôle que les programmeurs peuvent exercer lors de la recréation audio et à quelles sont les limites. « Nous comprenons mieux l’espace audio et les systèmes de réseaux neuronaux pour contrôler et générer un espace audio. »
Cela dit, « du point de vue créatif des outils, la chose vraiment intéressante est de casser l’outil », dit Oore, se rappelant quelque chose que Doug Eck chez Magenta dit souvent. Des logiciels de correction de hauteur comme Auto-Tune étaient à l’origine commercialisés comme un moyen de « corriger » numériquement des voix désaccordées. Mais des artistes de Cher à T-Pain s’intéressaient davantage aux façons non naturelles dont cela pouvait modifier la voix humaine. Oore est tout aussi curieux d’entendre d’autres sons que TimbreTron pourrait générer. « Si ça ne produit pas exactement un son de piano, mais qu’il produit quelque chose qui ressemble à un croisement entre un clavecin et un piano, ça pourrait être plus cool. »