Blog de recherche sur les vecteurs : Votre réseau de neurones est-il à risque? Le piège des optimiseurs à gradient adaptatif

Par Avery Ma, Yangchen Pan et Amir-Massoud Farahmand

En résumé; dr : Nos analyses empiriques et théoriques révèlent que les modèles entraînés avec la descente du gradient stochastique présentent une robustesse significativement plus élevée aux perturbations d’entrée que ceux entraînés par des méthodes de gradient adaptatif. Cela signifie que certaines techniques d’entraînement rendent les systèmes d’apprentissage automatique plus fiables et moins susceptibles d’être perturbés par des changements inattendus dans les données d’entrée.

Vous êtes-vous déjà demandé quelles sont les différences entre les modèles entraînés avec différents optimiseurs? Les recherches en cours portent sur l’impact de ces optimiseurs sur la performance de généralisation standard d’un modèle : leur précision sur l’ensemble de test original. Dans cet article, nous explorons comment ils peuvent faire ou défaire la robustesse des modèles face aux perturbations d’entrée, que ce soit la descente stochastique du gradient (SGD) ou le gradient adaptatif d’équipe.

Figure 1. Trois diagrammes de points comparant la précision standard des tests (axe des y, environ 80 à 100%) avec des métriques de robustesse (axe des x) pour des modèles entraînés à l’aide de trois optimiseurs : SGD (étoiles bleues), RMSProp (losanges vertes) et Adam (cercles rouges). Sept ensembles de données sont représentés sur les trois graphiques : MNIST, SVHN, FashionMNIST, Imagenette, CIFAR10, Caltech101 et CIFAR100, apparaissant par ordre décroissant de précision des tests. Le graphique de gauche mesure la précision sous perturbations gaussiennes (axe des x, 40–90%). Le graphique du milieu mesure la précision sous des attaques bornées par l₂ (axe des x, 50–85%). Le graphique de droite mesure la précision sous des attaques bornées l∞ (axe des x, 30–70%). Sur les trois graphiques et tous les ensembles de données, les valeurs de l’axe des y se regroupent étroitement peu importe l’optimiseur, ce qui indique une précision de test standard comparable. Cependant, les positions sur l’axe des x des trois optimiseurs divergent nettement pour chaque ensemble de données, indiquant des différences significatives de robustesse. La légende note que, bien que la précision des tests soit similaire entre les algorithmes d’entraînement, il existe une différence nette de robustesse. — **Figure 1 :** **Comparaison entre des modèles entraînés avec SGD, Adam et RMSProp.** Les modèles entraînés par différents algorithmes ont une précision de test similaire, mais il existe une différence nette de robustesse.

Nous commençons par mettre des modèles entraînés avec SGD, Adam et RMSProp côte à côte. Le résultat est résumé à la Figure 1. Nous nous concentrons sur deux critères dans cette figure. Premièrement, les trois graphiques s’alignent sur le même axe Y, ce qui indique la précision standard des tests. Les trois axes X montrent la précision du modèle sous diverses perturbations d’entrée. Les modèles entraînés par SGD, Adam et RMSProp sont marqués respectivement par une étoile, un cercle et un losange. Chaque triplet coloré désigne des modèles sur le même ensemble de données.

Il existe un petit écart vertical entre chaque triplet, ce qui montre que les modèles offrent des performances de généralisation standard similaires malgré leur entraînement par des algorithmes différents.

D’un autre côté, sous les trois types de perturbations, il y a une grande portée horizontale avec l’étoile toujours positionnée tout à droite parmi les trois. Cela indique que les modèles entraînés par SGD sont clairement les gagnants en termes de robustesse face aux perturbations. Des résultats similaires peuvent être observés avec des transformateurs de vision ou d’autres modalités de données.

Pourquoi les modèles se comportent-ils différemment sous des perturbations?

Pour comprendre ce phénomène, nous l’étudions à travers le prisme d’une analyse dans le domaine de la fréquence. Premièrement, nous remarquons que les ensembles de données naturels contiennent certaines fréquences qui n’ont pas d’impact significatif sur la performance de généralisation standard des modèles. Mais voici le rebondissement : sous certains optimiseurs, ce type d’information non pertinente peut en fait rendre le modèle plus vulnérable. Plus précisément, notre affirmation principale est que :

Pour optimiser l’objectif d’entraînement standard, les modèles doivent seulement apprendre à utiliser correctement l’information pertinente dans les données. Cependant, leur utilisation d’informations non pertinentes dans les données est sous-contrainte et peut mener à des solutions sensibles aux perturbations.

À cause de cela, en injectant des perturbations dans des parties du signal contenant des informations non pertinentes, on observe que les modèles entraînés par différents algorithmes présentent des changements de performance très différents.

Observation I : fréquences non pertinentes dans les signaux naturels

Pour démontrer que des fréquences non pertinentes existent lors de l’entraînement d’un classificateur de réseau neuronal, nous considérons une tâche d’apprentissage supervisé, en supprimant l’information non pertinente de l’entrée d’entraînement, puis en évaluant la performance du modèle à partir des données de test originales.

Figure 2. Deux graphiques linéaires montrant la précision sur l’ensemble de test original (axe des y, environ 80–100%) en fonction de p, le pourcentage de bases DCT retirées (axe des x, 0–90%), pour sept ensembles de données : MNIST, FashionMNIST, CIFAR10, CIFAR100, SVHN, Caltech101 et Imagenette. Le graphique de gauche enlève les bases DCT basées sur la magnitude (faible énergie spectre) et le graphique de droite enlève les bases DCT basées sur la fréquence (hautes fréquences). Dans le graphique de gauche, la précision à travers tous les ensembles de données reste largement stable alors que p passe de 0 à 90, avec seulement une légère baisse même à des taux élevés de suppression, ce qui indique que les composantes de fréquence à faible énergie portent peu de signal utile. Dans le graphique de droite, la précision reste aussi relativement élevée aux valeurs basses à moyennes de p, mais diminue plus nettement à des valeurs plus élevées, particulièrement pour des ensembles de données comme Imagenette et Caltech101. MNIST maintient une précision quasi parfaite dans les deux graphiques sur toutes les valeurs de p. La légende note que ces résultats démontrent que des fréquences non pertinentes existent dans les données naturelles, car la précision des tests reste élevée même lorsque des portions significatives du signal fréquentiel sont retirées. » — Figure 2 : Des **fréquences non pertinentes existent dans les données naturelles.** La précision sur l’ensemble de test original reste élevée lorsque les entrées d’entraînement sont modifiées en retirant des parties du signal avec une faible énergie spectrale (à gauche) et des hautes fréquences (à droite).

Lorsque nous modifions les données d’entraînement en retirant des parties du signal qui ont soit une faible énergie (Figure 2, à gauche) soit de haute fréquence (Figure 2, à droite), nous constatons que cela n’affecte pas vraiment la précision des modèles sur l’ensemble de test original. Cela suggère qu’il existe une quantité considérable d’informations non pertinentes du point de vue d’un réseau de neurones.

Cette observation mène à la première partie de notre affirmation, selon laquelle les modèles n’ont qu’à apprendre à utiliser correctement les informations cruciales définissant la classe issues des données d’entraînement pour optimiser l’objectif d’entraînement. D’un autre côté, la mesure dans laquelle ils utilisent des informations non pertinentes dans les données n’est pas bien réglementée. Cela peut poser problème et mener à des solutions sensibles aux perturbations.

Observation II : Robustesse du modèle selon des fréquences non pertinentes

Concentrons-nous maintenant sur la deuxième partie de la revendication. Si les réponses des modèles aux perturbations sur les fréquences non pertinentes expliquent leur différence de robustesse, alors on devrait s’attendre à une baisse de précision similaire entre les modèles lorsque les perturbations sont sur des fréquences pertinentes, mais une baisse de précision beaucoup plus importante sur les modèles moins robustes lorsque les entrées de test sont perturbées sur des fréquences non pertinentes.

Figure 3. Deux graphiques linéaires montrant la variation de précision sous des perturbations gaussiennes limitées par bande (axe y, exprimé en pourcentage, allant d’environ 0 à -12%) sur les bandes de fréquences perturbées r (axe x, 0 à 8) pour trois optimiseurs : SGD (bleu), Adam (orange) et RMSProp (vert). Le graphique de gauche montre les résultats pour CIFAR100 et le graphique de droite pour Imagenette. Dans les deux graphiques, les trois optimiseurs produisent de petites variations négatives de précision similaires à la bande de fréquence la plus basse (r=0), indiquant une sensibilité comparable aux perturbations de basse fréquence. À mesure que r augmente vers des bandes de fréquences plus élevées, les trois lignes divergent nettement. Dans le graphique CIFAR100, SGD montre la plus forte baisse de précision dans les bandes de fréquences plus élevées, atteignant environ -12%, tandis qu’Adam et RMSProp présentent moins de sensibilité et suivent des trajectoires plus superficielles. Le graphique d’Imagenette montre un motif de divergence similaire entre les trois optimiseurs dans des bandes de fréquences plus élevées, mais avec des magnitudes différentes. La légende note que, bien que les perturbations de basse fréquence affectent tous les modèles de manière similaire, les réponses des modèles varient significativement lorsque les perturbations se concentrent sur des bandes de fréquences plus élevées. — Figure 3 : **L’effet des perturbations gaussiennes à bande limitée sur les modèles entraînés avec SGD, Adam et RMSProp.** Les perturbations provenant de la bande la plus basse ont un effet similaire sur tous les modèles, tandis que les réponses des modèles varient significativement lorsque la perturbation se concentre sur des bandes de fréquences supérieures.

Cela mène à notre prochaine expérience. La figure 3 montre comment la précision de la classification se dégrade sous différents bruits gaussiens limités par la bande sur CIFAR100 et Imagenette. Remarquez que la perturbation à partir de la bande la plus basse a un impact similaire sur tous les modèles, peu importe l’algorithme avec lequel ils sont entraînés. Il existe cependant une différence notable dans la façon dont les modèles entraînés par SGD et les méthodes de gradient adaptatif répondent aux perturbations provenant de bandes de fréquences plus élevées.

Cette observation montre que lorsque les modèles, durant leur phase d’entraînement, n’ont pas de mécanismes en place pour limiter leur utilisation de fréquences non pertinentes, leur performance peut être compromise si les données sur des fréquences non pertinentes sont corrompues au moment du test.

Analyse de régression linéaire avec un modèle surparamétré

En plus des études empiriques, nous analysons théoriquement la dynamique d’apprentissage de la descente de gradient (GD) et de la descente de gradient de signe (signGD), une version sans mémoire d’Adam et RMSProp, à l’aide de modèles linéaires. Nous présentons brièvement la configuration du problème et résumons les résultats clés. Pour plus de détails, nous dirigeons le lecteur vers notre article.

Nous nous concentrons sur la régression des moindres carrés et comparons le risque standard et adversarial des solutions asymptotiques obtenues par le GD et le signGD. Motivés par nos observations précédentes, nous concevons un ensemble de données synthétique qui imite les propriétés d’un jeu de données naturel en spécifiant des fréquences qui ne sont pas pertinentes pour générer la véritable cible. Nous nous intéressons particulièrement au risque standard :

Une équation définissant le risque standard. L’expression se lit comme suit : R-indice de w, défini comme égal à l’espérance de la valeur absolue de w transposée X moins Y, au carré. Dans cette expression, R-indice-s désigne le risque standard, w est le vecteur de poids, X est l’entrée et Y est l’étiquette.

et le risque adversarial sous perturbations bornées par la norme L2 :

Une équation définissant le risque adversaire. L’expression se lit comme suit : R-indice-a de w, défini comme égal à l’espérance du maximum sur tout Δx où la norme l₂ de Δx est inférieure ou égale à ε, de la valeur absolue de w-transposée multipliée par la quantité X plus Δx, moins Y, au carré. Dans cette expression, R-indice-a désigne le risque adversaire, w est le vecteur de poids, Δx est une perturbation adversaire bornée par ε dans la norme l₂, X est l’entrée et Y est l’étiquette

Nos principaux résultats sont triples.

1. Des informations non pertinentes mènent à plusieurs minimiseurs de risque standards. Pour un minimiseur arbitraire, on peut obtenir son risque adversarial comme suit :

Une équation exprimant le risque adversarial en forme fermée aux poids optimaux. L’expression se lit comme suit : R-indice-a de w-exposant-astérisque égal à épsilon au carré sur 2, multiplié par la norme l₂ de w-exposant-astérisque au carré. Dans cette expression, w-exposant-astérisque désigne le vecteur poids optimal, ε est la borne de perturbation adversaire et la norme l₂ au carré de w-exposant-astérisque capture la sensibilité du modèle aux perturbations adverses.

Cela signifie que pour la robustesse des modèles aux limites de la norme l2, les variations sont inversement proportionnelles à la norme de poids des paramètres du modèle : une norme de poids plus petite implique une meilleure robustesse.

2. Avec un taux d’apprentissage suffisamment faible, le risque standard des solutions obtenues par GD et signGD peut être proche de 0.

3. Considérons un espace d’entrée tridimensionnel. Le ratio entre le risque adversarial de la solution de GD et de la solution de signe GD est toujours supérieur à 1 :

Une inégalité comparant le risque adversarial d’un modèle entraîné avec la descente du gradient de signe versus la descente du gradient standard. L’expression se lit comme suit : le rapport entre R-indice-a de w-indice-signe GD et R-indice-a de w-exposant-GD est strictement supérieur à 1 plus C. Dans cette expression, w-exposant-signeGD désigne les poids entraînés en utilisant la descente du gradient de signe, w-exposant-GD désigne les poids entraînés avec la descente du gradient standard, R-indice-a désigne le risque adversaire et C est une constante positive. L’inégalité affirme que la descente par gradient de signe produit un modèle avec un risque adversaire strictement plus élevé que la descente par gradient standard, d’au moins C.

où C>0 et sa valeur dépendent de l’initialisation des poids et de la covariance des données.

Ces deux dernières constatations sont particulièrement importantes. Ils fournissent des éclairages qui aident à expliquer les phénomènes observés à la Figure 1, en particulier les niveaux similaires de généralisation standard entre les modèles et les variations de leur robustesse. Les derniers résultats soulignent que le modèle linéaire tridimensionnel obtenu par GD présente constamment une plus grande robustesse face $l₂$ Perturbations bornées par -normes comparées au modèle obtenu à partir de signGD.

Relier la norme des modèles linéaires à la lipschitzness des réseaux de neurones

Les premiers résultats de l’analyse linéaire montrent que pour les minimiseurs de risque standards, sa robustesse face $l₂$ la perturbation est proportionnelle à son poids. Pour généraliser ce résultat dans le contexte de l’apprentissage profond, on établit un lien entre la norme de poids et la Lipschitzness des réseaux de neurones.

Considérons le réseau de neurones en avance comme une série de compositions de fonctions :

Une équation définissant un réseau de neurones à avance comme une composition de fonctions. L’expression se lit comme suit : f de x équivaut à la composition de φ-sous-indice-l, φ-indice-l-moins 1, jusqu’à φ-indice-1, appliqué à x. Le symbole ∘ désigne la composition des fonctions et les indices indexent chaque couche de 1 à l, où l est le nombre total de couches.

où chacun $φ$ est une opération linéaire, une fonction d’activation ou des opérations de mise en commun. Désignant la constante de fonction de Lipschitz $f$ comme $L(f)$ nous pouvons établir une borne supérieure sur la constante de Lipschitz pour l’ensemble du réseau de neurones en avance en utilisant .

Une inégalité établissant une borne supérieure sur la constante de Lipschitz d’un réseau de neurones feed-forward. L’expression se lit comme suit : L de f est inférieur ou égal au produit de i égal à 1 à l de L de φ-indice-i. Dans cette expression, L de f est la constante de Lipschitz du réseau complet, l est le nombre total de couches et L de φ-indice-i est la constante de Lipschitz de la composante de la i-ème couche. L’inégalité affirme que la constante de Lipschitz globale du réseau est bornée au-dessus par le produit des constantes de Lipschitz de la couche individuelle.

L’approximation de la Lipschitzness des composants du réseau de neurones, comme les convolutions et les connexions de saut, dépend souvent de la norme des poids. Cette méthode nous permet d’établir des liens entre la norme de poids d’un réseau de neurones et sa robustesse. Essentiellement, une norme de poids inférieure suggère une borne supérieure plus petite sur la constante de Lipschitz, ce qui indique que les modèles sont moins sujets aux perturbations.

Tableau 1 comparant la borne supérieure de la constante de Lipschitz et la moyenne de la précision robuste des réseaux de neurones sur sept ensembles de données – MNIST, Fashion, CIFAR10, CIFAR100, SVHN, Caltech101 et Imagenette – pour trois optimiseurs : SGD, Adam et RMSProp. Le tableau comporte deux groupes de lignes. Le premier groupe montre la borne supérieure de la constante de Lipschitz, exprimée comme le produit de i=1 à l de L(φi). Valeurs SGD : 3,83, 3,83, 26,81, 40,41, 22,65, 18,53, 23,99. Valeurs d’Adam : 5,75, 8,12, 28,70, 41,87, 30,45, 26,20, 28,55. Valeurs RMSProp : 6,21, 5,11, 37,75, 41,71, 28,31, 45,84, 27,11. Le deuxième groupe montre une précision robuste moyenne. SGD : 77,97%, 77,95%, 63,21%, 55,65%, 69,08%, 71,42%, 67,59%. Adam : 65,64%, 67,60%, 57,71%, 45,25%, 65,60%, 55,03%, 58,86%. RMSProp : 63,54%, 71,34%, 56,47%, 47,55%, 65,37%, 53,16%, 57,98%. Dans tous les ensembles de données, SGD produit constamment la plus petite borne supérieure constante de Lipschitz et la plus grande précision robuste moyenne comparée à Adam et RMSProp, comme indiqué dans la légende. — Tableau 1 : **Comparaison de la borne supérieure sur la constante de Lipschitz et de la précision robuste moyenne des réseaux de neurones.** Remarquez que dans tous les ensembles de données sélectionnés, les modèles entraînés par SGD ont une borne supérieure considérablement plus faible comparée aux modèles entraînés par Adam et RMSProp.

Les résultats du tableau 1 démontrent que les réseaux de neurones entraînés au SGD ont des constantes de Lipschitz considérablement plus faibles, ce qui explique la meilleure robustesse aux perturbations d’entrée que ceux entraînés avec des méthodes de gradient adaptatif comme montré à la Figure 1.

Notre travail souligne l’importance du choix des optimiseurs pour atteindre à la fois la généralisation et la robustesse. Cette compréhension fait non seulement progresser notre compréhension de la robustesse des réseaux neuronaux, mais oriente aussi les recherches futures dans le développement de stratégies d’optimisation qui maintiennent une grande précision tout en étant résilientes aux perturbations d’entrée, ouvrant la voie à des applications d’apprentissage automatique plus sûres et fiables.

Pourquoi les modèles se comportent-ils différemment sous des perturbations?

Observation I : fréquences non pertinentes dans les signaux naturels

Observation II : Robustesse du modèle selon des fréquences non pertinentes

Analyse de régression linéaire avec un modèle surparamétré

Relier la norme des modèles linéaires à la lipschitzness des réseaux de neurones

À lire aussi :

Mohamad Moosavi : Accélérer la recherche de solutions climatiques grâce à l’IA

Hassan Ashtiani : Bâtir une IA fiable à partir de bases mathématiques

Les chercheurs en vecteurs font progresser l’apprentissage de représentation et la recherche en apprentissage profond à l’ICLR 2026

Session d’affiches remarquable 2026 : 60 projets de recherche façonnant l’avenir de l’IA

CRISPNAM-FG : Un modèle de survie profonde interprétable de Fine-Gray pour les risques concurrents dans les soins de santé

La nouvelle cartographie de l’invisible

Les chercheurs en vecteurs font avancer les frontières de l’IA avec 80 articles au NeurIPS 2025

Quand l’IA intelligente devient trop intelligente : Principaux enseignements de l’atelier 2025 sur la sécurité et la vie privée en apprentissage automatique de Vector

L’Institut Vector nomme 13 nouveaux membres du corps professoral, élargissant ainsi le leadership principal de la recherche à travers l’Ontario

Les chercheurs en vecteurs plongent dans l’apprentissage profond à l’ICLR 2025

Les chercheurs en vecteurs s’attaquent aux défis réels de l’IA lors de l’ICML 2025

Transformer le soutien en santé mentale des jeunes : le modèle de réponse aux crises propulsé par l’IA de FAIIR

Percée majeure en prévision météorologique par IA : comment l’innovation canadienne transforme la prévision climatique | Météo des Fourmiers

Explorer l’intelligence : le parcours de Kelsey Allen, membre du corps professoral de Vector, de la physique des particules à l’apprentissage automatique cognitif

Apprentissage par renforcement multi-agents dans le monde réel – Derniers développements et applications

Tirer parti des grands modèles de langage pour des revues systématiques plus efficaces en médecine et au-delà

Clonage de la pensée : enseigner à l’IA à penser comme des humains pour une meilleure prise de décision

Systèmes de recommandation : Là où le milieu universitaire rencontre l’industrie

Mon stage de chercheur invité à l’Institut Vector

Chercheurs en vecteurs présentant plus de 98 articles à NeurIPS 2024

Débloquer le potentiel de l’ajustement prompt dans l’apprentissage fédéré

Un nouvel ensemble de données multimodal aidera au développement de systèmes d’IA éthiques

Dévoiler la maladie d’Alzheimer : comment la parole et l’IA peuvent aider à détecter les maladies

Geoffrey hinton, cofondateur de Vector, remporte le prix Nobel de physique 2024

Autonomiser les voyageurs aériens : un chatbot pour les droits des passagers aériens canadiens

Les chercheurs de l’Institut Vector se réunissent de nouveau pour la deuxième édition de l’atelier sur la confidentialité et la sécurité sur l’apprentissage automatique

Le chercheur en vecteurs Wenhu Chen sur l’amélioration et l’étalonnage des modèles de fondation

Les chercheurs en vecteurs présentent des articles à ACL 2024

AtomGen : Rationaliser la modélisation atomistique grâce à l’intégration des ensembles de données et des benchmarks

Les chercheurs en vecteurs ont présenté plus de 50 articles à l’ICML 2024

Les chercheurs en vecteurs présentent plus d’une douzaine d’articles lors du CVPR 2024

L’atelier de vision par ordinateur du Vector Institute met en lumière les capacités actuelles du domaine et son potentiel futur

Le chercheur en vecteurs Gautam Kamath analyse les derniers développements en matière de robustesse et de confidentialité

Des experts de confiance et de sécurité en IA de renommée mondiale publient un article majeur sur la gestion des risques liés à l’IA dans la revue Science

Les protocoles standardisés sont essentiels au déploiement responsable des modèles de langage

Les inconnues connues : Le chercheur en vecteurs Geoff Pleiss creuse profondément dans l’incertitude pour rendre les modèles d’apprentissage automatique plus précis

Innover : le traitement du langage naturel titres Le dernier atelier de l’Institut Vector

Comment le chercheur vectoriel Xi utilise la confidentialité différentielle pour aider à garder les données privées

Blog de recherche sur les vecteurs : réseaux neuronaux structurés pour l’estimation de la densité et l’inférence causale

Blogue de recherche vectorielle : estimation de l’effet causal à l’aide de l’apprentissage automatique

La théorie de l’apprentissage automatique occupe le devant de la scène lors de l’atelier du Vector Institute

Présentation de FlexModel : cadre révolutionnaire pour dévoiler les secrets des grands modèles d’IA générative

Neutraliser les biais en IA : le cadre UnBIAS du Vector Institute révolutionne l’analyse éthique des textes

Chercheurs en vecteurs présentant plus de 65 articles à NeurIPS 2023

IA pour la chimie et les matériaux : mélanger anciennes et nouvelles façons de penser

IA et santé publique : utilisation du traitement du langage naturel pour la gestion de bases de données cliniques

ICML 2023 : Développement d’un modèle de calcul adaptatif pour les tâches génératives multidimensionnelles

Blogue de recherche vectorielle : grands modèles de langage, incitations et PEFT

Dan Roy nommé codirecteur de Vector Research

Déverrouiller des approches alimentées par l’IA pour le traitement et la détection du cancer

La communauté Vector explore la recherche sur la confidentialité des données lors de l’atelier Machine Learning Privacy and Security

L’apprentissage automatique rencontre la mécanique quantique : Vector Workshop met en lumière des avancées révolutionnaires en informatique quantique

Plus de 20 articles de recherche sur les vecteurs acceptés au CVPR 2023

Recherche vectorielle présentée à l’ICLR 2023

Le Symposium de recherche sur l’IA met en lumière de nouvelles recherches sur les vecteurs

Les chercheurs en vecteurs remportent les plus grands honneurs à NeurIPS 2022

Le Canada peut être un leader en IA pour la science

Le chercheur en vecteurs Alán Aspuru-Guzik prononce la conférence Massey CIFAR

Apprentissage profond pour l’extraction d’empreintes de bâtiments dans l’imagerie aérienne

Graham Taylor nommé directeur de la recherche sur les vecteurs

Acceleration Consortium, Matter Lab et Vector Institute collaborent sur des logiciels pour alimenter les laboratoires de conduite autonome

La quête du nouveau membre du corps professoral de Vector, Jeff Clune, pour créer des systèmes d’IA ouverts

Blogue de recherche vectorielle : apprentissage par renforcement basé sur des modèles pondéré par gradient de valeurs

Un nouveau cadre d’IA aide à cartographier et gérer les espèces de moules envahissantes dans les lacs du Canada

Le rapport technique sur la vision par ordinateur détaille des perspectives issues d’un projet collaboratif entre l’industrie et le milieu académique

Les chercheurs en vecteurs ont reçu des prix lors de la Conférence internationale sur les représentations d’apprentissage (ICLR) 2022

Le Symposium de recherche rassemble la communauté Vector pour célébrer le travail des étudiants et des postdoctorants

Robustesse de l’apprentissage automatique : nouveaux défis et approches

L’équité dans l’apprentissage automatique : les principes de la gouvernance

Interprétabilité de l’apprentissage automatique : nouveaux défis et approches

Le hockey amateur bénéficie d’une expérience professionnelle de visionnage grâce à une startup de vision par ordinateur cofondée par un chercheur de Vector

Outil compatible avec l’IA qui identifie les variants de la COVID-19, co-développé par le chercheur de Vector Bo Wang

La technologie, y compris l’IA, joue de plus en plus un rôle clé dans notre chaîne alimentaire