ICML 2023 : Développement d'un modèle de calcul adaptatif pour les tâches génératives multidimensionnelles
25 octobre 2023
25 octobre 2023
Par Natasha Ali
Un nouvel article co-écrit par David Fleet, membre de la faculté de l'Institut Vecteur, présente un modèle de calcul adaptatif capable de représenter des données visuelles multidimensionnelles et de générer des images et des vidéos réalistes.
"Scalable Adaptive Computation for Iterative Generation" figure parmi les articles acceptés dans les actes 2023 de l'ICML (International Conference on Machine Learning), qui a présenté des recherches exceptionnelles menées par d'éminents membres de la communauté de recherche de Vector. La conférence, qui s'est tenue du 23 au 29 juillet, a présenté 21 articles cosignés par des membres du corps professoral, des affiliés du corps professoral et des boursiers postdoctoraux de l'Institut Vecteur.
Technique populaire d'intelligence artificielle générative, le calcul adaptatif permet aux réseaux neuronaux de traiter les informations de manière adaptative en fonction de l'évolution des données d'entrée, d'évaluer leur méthodologie existante et d'améliorer leurs performances à chaque point de données ultérieur. Au fond, elle garantit que les modèles d'apprentissage profond continuent de faire progresser leurs propriétés prédictives et d'ajuster leurs fonctions à mesure qu'ils sont exposés à de nouvelles conditions, pour finalement fonctionner à une capacité dynamique similaire à celle du cerveau humain.
Les modèles génératifs précédents n'ont pu traiter que des unités de données fixes telles que des pixels ou des parcelles d'images. Or, dans les images et les vidéos réalistes, les données ont tendance à être localisées de manière inégale dans l'ensemble de l'espace visuel, ce qui crée des grappes de données complexes dans les zones contenant des objets ou des textures visuellement élaborés.
C'est là que les réseaux d'interface récurrents (RIN) entrent en jeu. Ce modèle adaptatif récemment mis au point permet de résoudre certains des problèmes associés aux tâches génératives complexes. À l'aide d'un système à double unité, les RIN désignent des points de données individuels pour les espaces d'interface(X) et latents(Z), initiant des échanges en va-et-vient entre les deux espaces et permettant aux réseaux neuronaux de traiter plus efficacement les espaces inégaux.
Immédiatement connecté aux ensembles de données d'entrée, l'espace d'interface réagit de manière adaptative aux changements de taille d'entrée et aux variations dans le regroupement des données, en s'étendant à des milliers de points de données si nécessaire et en laissant la capacité de calcul globale relativement inchangée. Il est souvent impliqué dans le traitement d'espaces visuels statiques qui requièrent un minimum de calcul. Contrairement à son homologue, l'espace latent fonctionne indépendamment de l'échelle des données d'entrée. En tant que centrale de calcul, il est responsable des tâches spécialisées de calcul et d'étiquetage à haute capacité dans les régions groupées.
Le processus de formation des RIN à l'identification des composants visuels consistait en une initialisation de l'interface, suivie d'une initialisation latente et d'un empilement de blocs. En tant que premier point de contact avec l'entrée, les unités d'interface convertissent les images ou les vidéos en un ensemble de jetons de patch - une série de vecteurs d'identification qui contiennent des informations sur un composant de l'image, telles que la taille, l'emplacement relatif et la texture. Contrairement à l'initialisation de l'interface, l'initialisation latente implique des vecteurs spécialisés dotés de capacités prédictives avancées et d'un comportement appris.
Après le traitement préliminaire des données, l'interface et les espaces latents ont périodiquement échangé des ensembles de données, car les espaces latents ont accumulé des informations de calcul essentielles à partir des interfaces. Des cartes de lecture attentive ont été utilisées pour attribuer un score quantitatif à chaque point de données et localiser les régions importantes, en donnant la priorité à certaines unités "lourdes en calcul" et en signalant leur transfert vers l'espace latent. Ce processus récurrent a conduit à la formation de piles de blocs RIN, qui ont ensuite été analysées et remodelées pour créer le résultat visuel souhaité.
Pour résoudre les problèmes d'incohérence des données et de détachement possible entre les deux espaces, Fleet et ses coauteurs ont proposé un mécanisme de génération itératif, dans lequel les points de données calculés précédemment sont reportés - par itérations - sur différentes unités latentes et utilisés pour construire sur la base des informations existantes.
L'idée était de "démarrer à chaud" les unités latentes de manière à ce que les ensembles de données antérieurs servent de plans initiaux pour les tâches ultérieures de calcul et de traitement des données. En exposant les latents à des ensembles de données antérieurs, les nouvelles unités latentes pouvaient s'acclimater rapidement aux propriétés prédictives du modèle actuel, ce qui permettait un acheminement efficace des informations entre les espaces et au sein du réseau neuronal dans son ensemble.
En tant que nouveau modèle de calcul, les réseaux d'interface récurrents (RIN) peuvent étiqueter et recréer avec succès des informations visuelles multidimensionnelles. Grâce à un système binaire innovant, ce modèle de calcul adaptatif peut isoler les points de données en fonction de leur capacité de calcul perçue et accélérer le processus d'étiquetage et d'analyse des données, ce qui permet de générer rapidement des images et des vidéos élaborées.
Après avoir comparé les RIN à des modèles de génération adaptatifs bien établis, M. Fleet et ses coauteurs ont démontré les performances supérieures des RIN dans l'identification et le marquage adaptatifs des fluctuations spatiales dans les images et les vidéos. Le modèle adaptatif révolutionnaire a surpassé de nombreux modèles génératifs en tant qu'outil informatique robuste et dynamique et a fourni des résultats prometteurs pour l'intelligence artificielle générative dans les tâches visuelles complexes.
Cet article remarquable est un tremplin pour la construction de modèles d'IA générative plus puissants et pour faciliter la transition de la technologie générative sur le lieu de travail. Compte tenu de l'intérêt croissant pour l'IA générative, l'Institut Vecteur continue d'étendre ses initiatives de recherche qui visent à renforcer les techniques existantes et à consolider la réputation de Toronto en tant que centre de l'IA pour la recherche pionnière dans ce domaine.
Sources :
Graves, Alex. (2017). Temps de calcul adaptatif pour les réseaux neuronaux récurrents. Arvix. https://arxiv.org/abs/1603.08983