L'atelier sur la vision par ordinateur de l'institut Vector présente les capacités actuelles et le potentiel futur de ce domaine.

29 mai 2024

2024 Recherche Recherche 2024

Par Arber Kacollja

Le récent atelier sur la vision par ordinateur de l'Institut Vecteur a rassemblé les membres de la communauté de recherche Vecteur pour présenter et discuter des nouveaux travaux dans ce domaine.

Ces dernières années ont été marquées par un regain d'intérêt pour la modélisation générative au sein de la communauté des chercheurs en CV, où l'apprentissage automatique est utilisé pour analyser et extraire des informations à partir d'images et de vidéos, ce qui a un impact sur un large éventail d'industries. Le CV est un canal crucial par lequel l'IA et la ML peuvent relever des défis centrés sur l'humain, de la reconnaissance faciale, sonore et d'action aux véhicules autonomes, en passant par la segmentation et la classification de l'imagerie médicale, qui débloquent des applications dans tous les secteurs.

En mars dernier, les membres du corps professoral de Vector, les affiliés du corps professoral, les boursiers postdoctoraux et les chercheurs de l'ensemble de la communauté de recherche de Vector se sont réunis pour discuter de la recherche de pointe et échanger leurs points de vue sur divers sujets liés à la CV.

Leonid Sigal, membre de la faculté Vecteur, présente les panélistes d'un forum lors de l'atelier sur les modèles de base en vision.

Opportunités et défis des modèles de fondation

Au cours de son intervention, Leonid Sigal, membre de la faculté Vector et titulaire de la chaire CIFAR AI au Canada, qui est également professeur à l'université de British Columba, a abordé les défis et les opportunités liés aux modèles de fondation, qui constituent des éléments fondamentaux pour de nombreuses applications. 

Il a montré que si ces modèles peuvent générer des images de haute qualité sur la base de messages-guides, ils manquent de cohérence et de contrôle intuitif, nécessitant souvent un réglage moins qu'intuitif des messages-guides. M. Sigal a présenté les travaux publiés par son groupe, qui permettent à ces modèles de conserver leur cohérence lors de la génération d'images multiples, comme dans les story-boards pour le cinéma ou la télévision, en tirant parti de la mémoire visuelle. Il a également présenté une nouvelle approche de l'inversion de l'invite, qui permet d'optimiser l'invite qui aurait probablement généré une image donnée. L'inversion des invites et la combinaison des descriptions linguistiques qui en résultent directement permettent un paradigme entièrement nouveau pour le contrôle génératif des images, comme la fusion du contenu d'une image avec le style d'une autre, ou l'ajout de certains objets.

Enfin, il a également abordé les biais des modèles génératifs qui se sont révélés être des obstacles importants à leur déploiement. De nombreux modèles génératifs ne se contentent pas d'assumer les biais des données sur lesquelles ils sont entraînés, mais les exacerbent. Sigal a présenté une nouvelle approche qui permet d'évaluer dynamiquement la présence et l'étendue des biais. Ces mesures, associées à une technique d'atténuation prête à l'emploi, peuvent atténuer ces problèmes.

Modèles de diffusion pour l'estimation du flux optique et de la profondeur monoculaire

Les modèles de diffusion de débruitage constituent une nouvelle classe puissante de modèles génératifs basés sur la vraisemblance. Leur capacité à convertir des invites textuelles en images ou vidéos de haute fidélité a été transformatrice, améliorant la créativité et fournissant de nouveaux outils pour développer de nouvelles formes d'IA générative. Dans son exposé, David Fleet, membre de la faculté Vector et titulaire de la chaire d'IA du CIFAR Canada, qui est également professeur à l'université de Toronto, a examiné dans quelle mesure ces modèles pourraient également être efficaces pour différentes tâches de CV. En particulier, Fleet a montré qu'avec une architecture simple et générique, les modèles de diffusion peuvent être entraînés pour exceller dans deux tâches clés de traduction d'image à image : l'estimation de la profondeur monoculaire à partir d'une seule image RVB et l'estimation d'un champ de flux optique à partir de deux images vidéo consécutives. Il est surprenant de constater qu'avec une architecture et une procédure d'apprentissage génériques, ces modèles sont plus performants que les modèles spécifiques à une tâche de l'état de l'art actuel. Cela confirme la capacité des modèles de diffusion à approximer des distributions multimodales complexes et de haute dimension.

Graham Taylor, membre de la faculté Vector, anime un forum lors de l'atelier sur les modèles de fondation dans la vision, aux côtés de David Fleet, Yalda Mohsenzadeh et Leonid Sigal, membres de la faculté Vector, et de Marcus Brubaker et Avril Khademi, membres affiliés de la faculté Vector.

La vision par ordinateur au service du bien : atténuer la perte de biodiversité

Graham Taylor, membre de la faculté Vector et titulaire de la chaire CIFAR AI au Canada, qui est également professeur à l'université de Guelph, s'est penché sur l'impact significatif de la biodiversité sur notre écosystème, soulignant le besoin urgent d'intégrer l'intérêt individuel et collectif pour la biodiversité au cours de son intervention. "Décodage de la bibliothèque vivante : Computer Vision in Biodiversity Science" a mis en lumière le déclin alarmant de la biodiversité terrestre, qui a connu une diminution moyenne de 68 % des espèces de vertébrés dans le monde entre 1970 et 2016. M. Taylor a évoqué les facteurs à l'origine de ce déclin mondial, notamment le changement climatique et les pratiques agricoles non durables. Il a souligné le potentiel de la ML, en particulier des techniques d'apprentissage profond, pour transformer la science de la biodiversité en améliorant la précision de l'identification et de la surveillance des espèces grâce à la CV. En collaboration avec des chercheurs de l'institut frère Amii à Edmonton, l'approche innovante de Taylor vise à exploiter la puissance de l'apprentissage multimodal, y compris l'apprentissage à partir d'images et de "codes-barres ADN" correspondant au même spécimen, afin de faciliter une compréhension plus approfondie des données sur la biodiversité, contribuant ainsi à une conservation plus éclairée et à des décisions politiques. 

Modèles génératifs pour l'apprentissage auto-supervisé

Les progrès rapides de l'apprentissage auto-supervisé (SSL) ont mis en évidence son potentiel d'exploitation des données non étiquetées pour l'apprentissage de représentations visuelles puissantes. Cependant, les méthodes SSL existantes, en particulier celles qui utilisent différentes vues de la même image, s'appuient souvent sur un ensemble limité d'augmentations de données prédéfinies. Cela limite la diversité et la qualité des transformations, ce qui se traduit par des représentations sous-optimales. Dans ce projet SSL génératif, Arash Afkanpour, chercheur en apprentissage automatique appliqué au sein de l'équipe d'ingénierie IA de Vector, a présenté un nouveau cadre qui enrichit le paradigme SSL en intégrant des modèles génératifs pour générer des augmentations d'images sémantiquement cohérentes. En conditionnant directement les modèles génératifs sur une représentation d'image source, l'approche de l'équipe d'ingénierie de l'IA de Vector permet de générer diverses augmentations tout en préservant la sémantique de l'image originale, offrant ainsi un ensemble de données plus riche pour l'apprentissage auto-supervisé, améliorant finalement la qualité des représentations visuelles apprises de manière significative.

Dans le domaine de l'apprentissage des représentations multimodales, l'équipe d'ingénierie de l'IA de Vector a mis au point un cadre polyvalent conçu pour aider les chercheurs et les praticiens à élaborer de nouvelles architectures de modèles, de nouvelles fonctions de perte et de nouvelles méthodologies, ainsi qu'à expérimenter des techniques nouvelles et existantes. En outre, M. Afkanpour et l'équipe d'ingénierie de l'IA de Vector développent des méthodes qui combinent des techniques d'apprentissage de représentations contrastives et unimodales afin d'élargir considérablement les données disponibles pour l'entraînement de modèles multimodaux. L'objectif ultime de l'équipe est de construire un modèle de base de soins de santé formé sur une myriade de modalités, y compris le texte médical, diverses modalités d'images, les dossiers médicaux électroniques, et plus encore.

Introduction du modèle Prompt-Tuned Segment Anything (PT-SAM)

Marshall Wang, spécialiste associé de l'apprentissage automatique appliqué au sein de l'équipe d'ingénierie de l'IA de Vector, a fait une présentation sur le réglage des invites visuelles pour la segmentation de la télédétection. La segmentation des images est essentielle dans la recherche sur le changement climatique pour l'analyse de l'imagerie satellitaire. Cette technique est essentielle pour la cartographie des écosystèmes, l'évaluation des catastrophes naturelles et la planification urbaine et agricole. L'avènement de modèles fondamentaux basés sur la vision, comme le modèle Segment Anything (SAM), ouvre de nouvelles voies dans la recherche sur le climat et la télédétection (RS). SAM peut effectuer des tâches de segmentation sur n'importe quel objet à partir d'invites rédigées manuellement. Cependant, l'efficacité de SAM dépend largement de la qualité de ces invites. Ce problème est particulièrement prononcé avec les données de télédétection, qui sont intrinsèquement complexes. Pour utiliser SAM pour une segmentation précise à l'échelle pour RS, il faudrait créer des invites complexes pour chaque image, ce qui implique généralement de sélectionner des dizaines de points.

Pour remédier à ce problème, Wang a présenté la méthode Prompt-Tuned SAM (PT-SAM), qui minimise la nécessité d'une saisie manuelle grâce à l'intégration d'une invite légère pouvant faire l'objet d'une formation. Cette intégration permet de capturer des informations sémantiques clés pour des objets d'intérêt spécifiques, applicables à des images inédites. L'approche de l'équipe fusionne les capacités de généralisation à partir de zéro du modèle SAM pré-entraîné avec l'apprentissage supervisé. Il est important de noter que le processus d'apprentissage pour l'intégration rapide ne nécessite qu'un minimum de matériel, puisqu'il peut être effectué sur une unité centrale, et qu'il n'a besoin que d'un petit ensemble de données. Avec PT-SAM, la segmentation d'images sur des données RS peut être réalisée à grande échelle sans intervention humaine, avec des précisions comparables à celles des messages-guides conçus par l'homme avec SAM. Par exemple, PT-SAM peut être utilisé pour analyser le couvert forestier sur de vastes zones, un facteur clé pour comprendre l'impact des activités humaines sur les forêts. Sa capacité à segmenter une multitude d'images en fait un outil idéal pour surveiller les changements généralisés de la couverture terrestre, ce qui permet de mieux comprendre l'urbanisation.

Les chercheurs du secteur vectoriel présentent leurs travaux lors de la session de posters.

La vision par ordinateur façonne actuellement la vie quotidienne d'une manière inimaginable jusqu'à présent. La sophistication continue de l'imagerie satellitaire, stimulée par la vision par ordinateur, permettra une surveillance et une gestion plus précises de notre environnement. En outre, la vision par ordinateur présente un réel potentiel pour jouer un rôle central dans diverses applications, y compris les soins de santé. Ces développements promettent d'améliorer les simulations et la sécurité, et de faciliter la charge de travail des médecins et les soins aux patients. Cette technologie transformatrice crée de nouvelles possibilités et remodèle divers aspects de notre vie.

Pourtant, nous n'en sommes qu'aux premiers stades de l'exploration du plein potentiel du CV - beaucoup de ces outils ne sont pas encore prêts. En outre, il est essentiel d'identifier et d'atténuer les considérations éthiques et les défis tels que les préjugés. Ce n'est qu'à cette condition que nous pourrons garantir que les avantages de la vision par ordinateur sont équitablement répartis et respectueux de l'éthique.

Pour en savoir plus sur les initiatives de recherche actuelles de l'Institut Vecteur dans le domaine de la vision par ordinateur, cliquez ici pour visionner l'intervention de Renjie Liao, membre du corps professoral de l'Institut Vecteur, dans le cadre de la série de conférences de prestige de l'Institut Vecteur.

En rapport :

2024
Recherche 2024

Exploiter le potentiel du Prompt-Tuning dans l'apprentissage fédéré

2024
Talents en matière d'IA

Naviguer dans le paysage des talents de l'IA : comment les partenariats de l'Institut Vector comblent le déficit de compétences

2024
Talents en matière d'IA

Le marché canadien de l'emploi dans le domaine de l'IA évolue et privilégie les compétences spécialisées et recherchées