ICML 2023 : Développement d’un modèle de calcul adaptatif pour les tâches génératives multidimensionnelles
25 octobre 2023
25 octobre 2023
Par Natasha Ali
Un nouvel article coécrit par David Fleet, membre du corps professoral du Vector Institute, présente un modèle de calcul adaptatif capable de représenter des données visuelles multidimensionnelles et de générer des images et vidéos réalistes.
« Scalable Adaptive Computation for Iterative Generation » faisait partie des articles acceptés lors des actes 2023 de l’ICML (International Conference on Machine Learning), qui mettait en valeur des recherches exceptionnelles de membres éminents de la communauté de recherche de Vector. Tenue du 23 au 29 juillet, la conférence a présenté 21 communications coécrites par des membres du corps professoral, des membres affiliés du corps professoral et des chercheurs postdoctoraux du Vector Institute.

En tant que technique populaire d’intelligence artificielle générative, le calcul adaptatif permet aux réseaux neuronaux de traiter l’information de façon adaptative selon l’évolution des entrées, d’évaluer leur méthodologie existante et d’améliorer leur performance à chaque point de données subséquente. Au fond, elle assure que les modèles d’apprentissage profond continuent d’améliorer leurs propriétés prédictives et d’ajuster leurs fonctions à mesure qu’ils sont exposés à de nouvelles conditions, fonctionnant finalement à une capacité dynamique similaire à celle du cerveau humain.

Les modèles génératifs précédents n’ont pu traiter que des unités de données fixes comme des pixels d’image ou des patches d’image. Avec des images et vidéos réalistes, cependant, les données ont tendance à être localisées de manière inégale dans tout l’espace visuel, créant des amas de données complexes dans des zones contenant des objets ou des textures visuellement élaborés.
C’est là que les réseaux d’interface récurrente (RIN) entrent en jeu. Ce modèle adaptatif nouvellement développé soulage certains des problèmes liés aux tâches génératives complexes. À l’aide d’un système à double unité, les RIN désignent des points de données individuels pour interfacer les espaces (X) et latents (Z), initiant des échanges entre les deux espaces et permettant aux réseaux de neurones de traiter plus efficacement les espaces inégaux .
Immédiatement connecté aux ensembles de données d’entrée, l’espace d’interface réagit de manière adaptative aux changements de taille des entrées et aux variations du regroupement des données, s’étendant à des milliers de points de données si nécessaire et laissant la capacité globale de calcul relativement inchangée. Il est souvent impliqué dans le traitement d’espaces visuels statiques qui nécessitent un calcul minimal. Contrairement à son homologue, l’espace latent fonctionne indépendamment de l’échelle des données d’entrée. En tant que puissance du calcul, elle est responsable des tâches spécialisées et de calcul à haute capacité dans les régions regroupées.

Le processus d’entraînement des RIN pour identifier les composants visuels consistait en l’initialisation de l’interface, suivie de l’initialisation latente et de l’empilement de blocs. En tant que premier point de contact avec l’entrée, les unités d’interface convertissaient des images ou des vidéos en un ensemble de jetons patch – une série de vecteurs identifiants qui transportent des informations sur un composant d’image telles que la taille, la position relative et la texture. Contrairement à l’initialisation d’interface, l’initialisation latente impliquait des vecteurs spécialisés dotés de capacités prédictives avancées et d’un comportement appris.
Après un traitement préliminaire des données, les espaces d’interface et latents échangeaient périodiquement des ensembles de données, tandis que les espaces latents accumulaient des informations informatiques essentielles provenant des interfaces. Des cartes d’attention lises étaient utilisées pour attribuer un score quantitatif à chaque point de données et localiser les régions importantes, en priorisant certaines unités comme étant « lourdes en calcul » et en signalant leur transfert vers l’espace latent. Ce processus récurrent a conduit à la formation de piles de blocs RIN, qui ont ensuite été analysées et remodelées pour créer la sortie visuelle désirée.
Pour résoudre les problèmes d’incohérence des données et de possible détachement entre les deux espaces, Fleet et ses coauteurs ont proposé un mécanisme de génération itératif, dans lequel des points de données précédemment calculés étaient transférés – par itérations – entre différentes unités latentes et utilisés pour s’appuyer sur des informations existantes.
L’idée était de « démarrer à chaud » les unités latentes afin que les ensembles de données antérieurs servent de plans initiaux pour les tâches ultérieures de calcul et de traitement des données. En exposant les latents à des ensembles de données antérieurs, de nouvelles unités latentes pourraient rapidement s’acclimater aux propriétés prédictives du modèle actuel, ce qui entraînerait un routage efficace de l’information entre les espaces et au sein du réseau de neurones dans son ensemble.
En tant que modèle de calcul novateur, les réseaux d’interface récurrente (RIN) peuvent avec succès marquer et recréer des informations visuelles multidimensionnelles. Grâce à un système binaire innovant, ce modèle de calcul adaptatif peut isoler les points de données selon leur capacité de calcul perçue et accélérer le processus d’étiquetage et d’analyse des données, menant à la génération rapide d’images et de vidéos élaborées.
Après avoir comparé les RIN à des modèles de génération adaptative bien établis, Fleet et ses coauteurs ont démontré la performance supérieure des RIN pour identifier et étiqueter de façon adaptative les fluctuations spatiales dans les images et les vidéos. Ce modèle adaptatif révolutionnaire a surpassé de nombreux modèles génératifs en tant qu’outil computationnel robuste et dynamique, et a fourni des résultats prometteurs pour l’intelligence artificielle générative dans des tâches visuellement complexes.
Cet article remarquable constitue une étape vers la construction de modèles d’IA générative plus puissants et la facilitation de la transition de la technologie générative en milieu de travail. Avec l’intérêt croissant pour l’IA générative, l’Institut Vector continue d’élargir ses initiatives de recherche visant à renforcer les techniques existantes et à renforcer la réputation de Toronto comme centre d’IA pour la recherche pionnière en IA.
Sources :
Graves, Alex. (2017). Temps de calcul adaptatif pour les réseaux neuronaux récurrents. Arvix. https://arxiv.org/abs/1603.08983