L’atelier de vision par ordinateur du Vector Institute met en lumière les capacités actuelles du domaine et son potentiel futur

29 mai 2024

Recherche 2024Recherche 2024

Par Arber Kacollja

Le récent atelier de vision par ordinateur (CV) de l’Institut Vector a réuni des membres de la communauté de recherche sur les vecteurs pour présenter et discuter des nouveaux travaux dans le domaine.

Ces dernières années, l’intérêt pour la modélisation générative a augmenté au sein de la communauté de recherche en CV, où l’apprentissage automatique est utilisé pour analyser et extraire de l’information à partir d’images et de vidéos, impactant un large éventail d’industries. La CV est un canal crucial par lequel l’IA et l’apprentissage automatique peuvent relever des défis centrés sur l’humain, allant de la reconnaissance faciale, sonore et d’action aux véhicules autonomes et à la segmentation et classification de l’imagerie médicale qui débloquent des applications dans divers secteurs.

En mars dernier, des membres du corps professoral de Vector, des membres affiliés du corps professoral, des boursiers postdoctoraux et des chercheurs issus de la communauté élargie de la recherche Vector se sont réunis pour discuter de recherches de pointe et échanger des perspectives sur divers sujets liés au CV.

Leonid Sigal, membre du corps professoral de Vector, présente les panélistes d’un forum lors de l’atelier sur les modèles fondamentaux en vision.

Sur les opportunités et les défis des modèles de fondation

Lors de sa présentation, Leonid Sigal, membre du corps professoral de Vector et président de l’IA au Canada CIFAR, également professeur à l’Université de British Columba, a discuté des défis et des opportunités des modèles de fondation, éléments fondamentaux pour de nombreuses applications. 

Il a démontré que, bien que de tels modèles puissent générer des images de haute qualité à partir d’invites d’image, ils manquent de cohérence et de contrôlabilité intuitive, nécessitant souvent un réglage des prompts peu intuitif. Sigal a présenté des travaux publiés par son groupe qui permettaient à ces modèles de maintenir la cohérence lors de la génération de multiples images, comme dans les storyboards pour film ou télévision, en tirant parti de la mémoire visuelle. Il a également présenté une approche novatrice pour l’inversion des prompts, qui permettait d’optimiser l’invite qui aurait probablement généré n’importe quelle image spécifiée. Inverser les invites et combiner les descriptions de langage résultantes permet directement un tout nouveau paradigme pour le contrôle génératif des images, comme fusionner le contenu d’une image avec le style d’une autre, ou l’ajout de certains objets.

Enfin, il a aussi abordé les biais des modèles génératifs qui sont apparus comme des obstacles importants à leur déploiement. Beaucoup de modèles génératifs supposent non seulement les biais des données sur lesquelles ils sont entraînés, mais les aggravent. Sigal a présenté une approche novatrice capable d’évaluer dynamiquement la présence et l’étendue des biais. Ces mesures, combinées à une technique d’atténuation prête à l’emploi, peuvent atténuer ces problèmes.

Modèles de diffusion pour l’estimation de l’écoulement optique et de la profondeur monoculaire

Les modèles de diffusion à débruit sont une nouvelle classe puissante de modèles génératifs basés sur la vraisemblance. Leur capacité à convertir des invites textuelles en images ou vidéos haute fidélité a été transformatrice, renforçant la créativité et offrant de nouveaux outils pour développer de nouvelles formes d’IA générative. Dans sa présentation, membre du corps professoral Vector et titulaire de la chaire IA du CIFAR au Canada David FlEET, qui est également professeur à l’Université de Toronto, a exploré dans quelle mesure ces modèles pourraient aussi être efficaces pour différentes tâches de CV. En particulier, Fleet a démontré qu’avec une architecture simple et générique, les modèles de diffusion peuvent être entraînés à exceller dans deux tâches clés de traduction image à image : l’estimation de la profondeur monoculaire à partir d’une seule image RVB; et l’estimation d’un champ d’écoulement optique donné deux images consécutives de vidéo. Étonnamment, avec une architecture et une procédure d’entraînement génériques, de tels modèles surpassent les modèles actuels de pointe et spécifiques à chaque tâche. Cela soutient également la capacité des modèles de diffusion à approcher des distributions complexes, de haute dimension et multimodales.

Graham Taylor, membre du corps professoral de Vector, anime un forum lors de l’atelier sur les modèles fondamentaux en vision, aux côtés des membres du corps professoral de Vector David Fleet, Yalda Mohsenzadeh et Leonid Sigal, ainsi que des affiliés de Vector Marcus Brubaker et Avril Khademi.

La vision par ordinateur comme force du bien : atténuer la perte de biodiversité

Graham Taylor, membre du corps professoral de Vector et président IA du CIFAR au Canada, également professeur à l’Université de Guelph, a approfondi l’impact significatif de la biodiversité sur notre écosystème, soulignant l’urgence d’intégrer l’accent individuel et collectif sur la biodiversité lors de sa présentation. « Decoding the Living Library : Computer Vision in Biodiversity Science » a mis en lumière le déclin alarmant de la biodiversité terrestre, qui a connu une baisse moyenne mondiale de 68% des espèces de vertébrés entre 1970 et 2016. Taylor a discuté des forces motrices derrière ce déclin mondial, notamment les changements climatiques et les pratiques agricoles non durables. Il a souligné le potentiel de l’apprentissage automatique, en particulier des techniques d’apprentissage profond, pour transformer la science de la biodiversité en améliorant la précision de l’identification et du suivi des espèces via le CV. En collaboration avec des chercheurs de l’institut frère Amii à Edmonton, l’approche novatrice de Taylor vise à exploiter la puissance de l’apprentissage multimodal, incluant l’apprentissage à partir d’images et de « codes-barres ADN » correspondant au même sémimen, afin de faciliter une compréhension plus approfondie des données sur la biodiversité et contribuer à des décisions de conservation et de politiques plus éclairées. 

Modèles génératifs pour l’apprentissage auto-supervisé

L’avancée rapide de l’apprentissage auto-supervisé (SSL) a mis en lumière son potentiel à exploiter les données non étiquetées pour apprendre des représentations visuelles puissantes. Cependant, les méthodes SSL existantes, en particulier celles utilisant différentes vues de la même image, reposent souvent sur un ensemble limité d’augmentations de données prédéfinies. Cela limite la diversité et la qualité des transformations, ce qui entraîne des représentations sous-optimales. Dans ce projet SSL génératif, Arash Afkanpour, scientifique appliqué en apprentissage automatique dans l’équipe d’ingénierie IA de Vector, a introduit un cadre novateur qui enrichit le paradigme SSL en intégrant des modèles génératifs pour générer des augmentations d’images sémantiquement cohérentes. En conditionnant directement les modèles génératifs sur une représentation de l’image source, l’approche de l’équipe d’ingénierie IA de Vector permet la génération d’augmentations diverses tout en préservant la sémantique de l’image originale, offrant ainsi un ensemble de données plus riche pour l’apprentissage auto-supervisé, améliorant ainsi de manière significative la qualité des représentations visuelles apprises.

Dans le domaine de l’apprentissage par représentation multimodale, l’équipe d’ingénierie IA de Vector a développé un cadre polyvalent conçu pour aider les chercheurs et praticiens à construire de nouvelles architectures de modèles, fonctions de perte et méthodologies, et à expérimenter avec des techniques innovantes et existantes. De plus, Afkanpour et l’équipe d’ingénierie de l’IA vectorielle développent des méthodes qui combinent des techniques d’apprentissage par représentation contrastive et unimodale afin d’élargir considérablement les données disponibles pour l’entraînement de modèles multimodaux. L’objectif ultime de l’équipe est de construire un modèle de base en soins de santé entraîné sur une multitude de modalités, incluant le texte médical, diverses modalités d’images, les dossiers médicaux électroniques, et plus encore.

Présentation du modèle segment à réglage d’invite (PT-SAM)

Marshall Wang, spécialiste associé en apprentissage automatique appliqué dans l’équipe d’ingénierie IA de Vector, a présenté sur l’ajustement visuel des prompts pour la segmentation par télédétection. La segmentation des images est cruciale dans la recherche sur les changements climatiques pour analyser les images satellites. Cette technique est essentielle pour la cartographie des écosystèmes, l’évaluation des catastrophes naturelles, ainsi que pour la planification urbaine et agricole. L’avènement de modèles fondamentaux basés sur la vision, comme le Segment Anything Model (SAM), ouvre de nouvelles voies en recherche climatique et en télédétection (RS). SAM peut effectuer des tâches de segmentation sur n’importe quel objet à partir d’invites manuelles. Cependant, l’efficacité de SAM dépend en grande partie de la qualité de ces incitations. Ce problème est particulièrement marqué avec les données RS, qui sont intrinsèquement complexes. Pour utiliser SAM pour une segmentation précise à grande échelle pour RS, il faudrait créer des invites complexes pour chaque image, ce qui implique généralement de sélectionner des dizaines de points.

Pour y remédier, Wang a introduit le Prompt-Tuned SAM (PT-SAM), une méthode qui minimise le besoin d’entrée manuelle grâce à une intégration légère et entraînable. Cet embedding capture des informations sémantiques clés pour des objets d’intérêt spécifiques qui seraient applicables à des images invisibles. L’approche de l’équipe combine les capacités de généralisation zéro tir du modèle SAM pré-entraîné avec l’apprentissage supervisé. Il est important de noter que le processus d’entraînement pour l’intégration de prompts a non seulement des exigences matérielles minimales, ce qui permet de l’effectuer sur un processeur, mais il ne nécessite qu’un petit jeu de données. Avec PT-SAM, la segmentation d’images sur les données RS peut être effectuée à grande échelle sans intervention humaine, atteignant des précisions comparables à celles des incitations humaines avec SAM. Par exemple, le PT-SAM peut être utilisé pour analyser la couverture forestière sur de vastes zones, un facteur clé pour comprendre l’impact des activités humaines sur les forêts. Sa capacité à segmenter une multitude d’images le rend idéal pour surveiller les changements étendus de la couverture des sols, offrant ainsi des perspectives plus approfondies sur l’urbanisation.

Les chercheurs en vecteurs présentent leurs recherches lors de la séance d’affiches.

La vision par ordinateur façonne actuellement la vie quotidienne de façons auparavant inimaginables. La sophistication continue de l’imagerie satellite, portée par la CV, permettra une surveillance et une gestion plus précises de notre environnement. De plus, la vision par ordinateur montre un réel potentiel pour jouer un rôle central dans diverses applications, y compris les soins de santé. Ces développements promettent d’améliorer les simulations et la sécurité, ainsi que d’aider la charge de travail des médecins et les soins aux patients. Cette technologie transformatrice crée de nouvelles possibilités et remodele divers aspects de nos vies.

Pourtant, nous en sommes encore aux premiers stades d’exploration du plein potentiel du CV — beaucoup de ces outils ne sont pas encore prêts. De plus, il est crucial d’identifier et d’atténuer les considérations et défis éthiques tels que les préjugés. Ce n’est qu’ainsi que nous pourrons garantir que les avantages de la vision par ordinateur soient distribués équitablement et éthiquement responsables.

Vous souhaitez en savoir plus sur les initiatives de recherche actuelles de l’Institut Vector en vision par ordinateur, cliquez ici pour assister à la conférence de Renjie Liao, membre du corps professoral de Vector, lors de la série de conférences distinguées de Vector.

À lire aussi :

2026
Réflexions
Recherche
Recherche 2026

La nouvelle cartographie de l’invisible

Les femmes écrivent sur un tableau blanc. Il y a un homme à sa gauche qui regarde le tableau.
2025
Recherche
Recherche 2025

Les chercheurs en vecteurs font avancer les frontières de l’IA avec 80 articles au NeurIPS 2025

2025
Apprentissage automatique
Recherche
Recherche 2025

Quand l’IA intelligente devient trop intelligente : Principaux enseignements de l’atelier 2025 sur la sécurité et la vie privée en apprentissage automatique de Vector