Blog de recherche sur les vecteurs : Votre réseau de neurones est-il à risque? Le piège des optimiseurs à gradient adaptatif

12 mars 2024

Recherche

Par Avery Ma, Yangchen Pan et Amir-Massoud Farahmand

TMLR (Certification en vedette)

Code

En résumé; dr : Nos analyses empiriques et théoriques révèlent que les modèles entraînés avec la descente du gradient stochastique présentent une robustesse significativement plus élevée aux perturbations d’entrée que ceux entraînés par des méthodes de gradient adaptatif. Cela signifie que certaines techniques d’entraînement rendent les systèmes d’apprentissage automatique plus fiables et moins susceptibles d’être perturbés par des changements inattendus dans les données d’entrée.

Vous êtes-vous déjà demandé quelles sont les différences entre les modèles entraînés avec différents optimiseurs? Les recherches en cours portent sur l’impact de ces optimiseurs sur la performance de généralisation standard d’un modèle : leur précision sur l’ensemble de test original. Dans cet article, nous explorons comment ils peuvent faire ou défaire la robustesse des modèles face aux perturbations d’entrée, que ce soit la descente stochastique du gradient (SGD) ou le gradient adaptatif d’équipe.

Figure 1. Trois diagrammes de points comparant la précision standard des tests (axe des y, environ 80 à 100%) avec des métriques de robustesse (axe des x) pour des modèles entraînés à l’aide de trois optimiseurs : SGD (étoiles bleues), RMSProp (losanges vertes) et Adam (cercles rouges). Sept ensembles de données sont représentés sur les trois graphiques : MNIST, SVHN, FashionMNIST, Imagenette, CIFAR10, Caltech101 et CIFAR100, apparaissant par ordre décroissant de précision des tests. Le graphique de gauche mesure la précision sous perturbations gaussiennes (axe des x, 40–90%). Le graphique du milieu mesure la précision sous des attaques bornées par l₂ (axe des x, 50–85%). Le graphique de droite mesure la précision sous des attaques bornées l∞ (axe des x, 30–70%). Sur les trois graphiques et tous les ensembles de données, les valeurs de l’axe des y se regroupent étroitement peu importe l’optimiseur, ce qui indique une précision de test standard comparable. Cependant, les positions sur l’axe des x des trois optimiseurs divergent nettement pour chaque ensemble de données, indiquant des différences significatives de robustesse. La légende note que, bien que la précision des tests soit similaire entre les algorithmes d’entraînement, il existe une différence nette de robustesse.
Figure 1 : Comparaison entre des modèles entraînés avec SGD, Adam et RMSProp. Les modèles entraînés par différents algorithmes ont une précision de test similaire, mais il existe une différence nette de robustesse.

Nous commençons par mettre des modèles entraînés avec SGD, Adam et RMSProp côte à côte. Le résultat est résumé à la Figure 1. Nous nous concentrons sur deux critères dans cette figure. Premièrement, les trois graphiques s’alignent sur le même axe Y, ce qui indique la précision standard des tests. Les trois axes X montrent la précision du modèle sous diverses perturbations d’entrée. Les modèles entraînés par SGD, Adam et RMSProp sont marqués respectivement par une étoile, un cercle et un losange. Chaque triplet coloré désigne des modèles sur le même ensemble de données.

Il existe un petit écart vertical entre chaque triplet, ce qui montre que les modèles offrent des performances de généralisation standard similaires malgré leur entraînement par des algorithmes différents. 

D’un autre côté, sous les trois types de perturbations, il y a une grande portée horizontale avec l’étoile toujours positionnée tout à droite parmi les trois. Cela indique que les modèles entraînés par SGD sont clairement les gagnants en termes de robustesse face aux perturbations. Des résultats similaires peuvent être observés avec des transformateurs de vision ou d’autres modalités de données.

Pourquoi les modèles se comportent-ils différemment sous des perturbations?

Pour comprendre ce phénomène, nous l’étudions à travers le prisme d’une analyse dans le domaine de la fréquence. Premièrement, nous remarquons que les ensembles de données naturels contiennent certaines fréquences qui n’ont pas d’impact significatif sur la performance de généralisation standard des modèles. Mais voici le rebondissement : sous certains optimiseurs, ce type d’information non pertinente peut en fait rendre le modèle plus vulnérable. Plus précisément, notre affirmation principale est que :

Pour optimiser l’objectif d’entraînement standard, les modèles doivent seulement apprendre à utiliser correctement l’information pertinente dans les données. Cependant, leur utilisation d’informations non pertinentes dans les données est sous-contrainte et peut mener à des solutions sensibles aux perturbations.

À cause de cela, en injectant des perturbations dans des parties du signal contenant des informations non pertinentes, on observe que les modèles entraînés par différents algorithmes présentent des changements de performance très différents.

Observation I : fréquences non pertinentes dans les signaux naturels

Pour démontrer que des fréquences non pertinentes existent lors de l’entraînement d’un classificateur de réseau neuronal, nous considérons une tâche d’apprentissage supervisé, en supprimant l’information non pertinente de l’entrée d’entraînement, puis en évaluant la performance du modèle à partir des données de test originales.

Figure 2. Deux graphiques linéaires montrant la précision sur l’ensemble de test original (axe des y, environ 80–100%) en fonction de p, le pourcentage de bases DCT retirées (axe des x, 0–90%), pour sept ensembles de données : MNIST, FashionMNIST, CIFAR10, CIFAR100, SVHN, Caltech101 et Imagenette. Le graphique de gauche enlève les bases DCT basées sur la magnitude (faible énergie spectre) et le graphique de droite enlève les bases DCT basées sur la fréquence (hautes fréquences). Dans le graphique de gauche, la précision à travers tous les ensembles de données reste largement stable alors que p passe de 0 à 90, avec seulement une légère baisse même à des taux élevés de suppression, ce qui indique que les composantes de fréquence à faible énergie portent peu de signal utile. Dans le graphique de droite, la précision reste aussi relativement élevée aux valeurs basses à moyennes de p, mais diminue plus nettement à des valeurs plus élevées, particulièrement pour des ensembles de données comme Imagenette et Caltech101. MNIST maintient une précision quasi parfaite dans les deux graphiques sur toutes les valeurs de p. La légende note que ces résultats démontrent que des fréquences non pertinentes existent dans les données naturelles, car la précision des tests reste élevée même lorsque des portions significatives du signal fréquentiel sont retirées. »
Figure 2 : Des fréquences non pertinentes existent dans les données naturelles. La précision sur l’ensemble de test original reste élevée lorsque les entrées d’entraînement sont modifiées en retirant des parties du signal avec une faible énergie spectrale (à gauche) et des hautes fréquences (à droite).

Lorsque nous modifions les données d’entraînement en retirant des parties du signal qui ont soit une faible énergie (Figure 2, à gauche) soit de haute fréquence (Figure 2, à droite), nous constatons que cela n’affecte pas vraiment la précision des modèles sur l’ensemble de test original. Cela suggère qu’il existe une quantité considérable d’informations non pertinentes du point de vue d’un réseau de neurones.

Cette observation mène à la première partie de notre affirmation, selon laquelle les modèles n’ont qu’à apprendre à utiliser correctement les informations cruciales définissant la classe issues des données d’entraînement pour optimiser l’objectif d’entraînement. D’un autre côté, la mesure dans laquelle ils utilisent des informations non pertinentes dans les données n’est pas bien réglementée. Cela peut poser problème et mener à des solutions sensibles aux perturbations.

Observation II : Robustesse du modèle selon des fréquences non pertinentes

Concentrons-nous maintenant sur la deuxième partie de la revendication. Si les réponses des modèles aux perturbations sur les fréquences non pertinentes expliquent leur différence de robustesse, alors on devrait s’attendre à une baisse de précision similaire entre les modèles lorsque les perturbations sont sur des fréquences pertinentes, mais une baisse de précision beaucoup plus importante sur les modèles moins robustes lorsque les entrées de test sont perturbées sur des fréquences non pertinentes.

Figure 3. Deux graphiques linéaires montrant la variation de précision sous des perturbations gaussiennes limitées par bande (axe y, exprimé en pourcentage, allant d’environ 0 à -12%) sur les bandes de fréquences perturbées r (axe x, 0 à 8) pour trois optimiseurs : SGD (bleu), Adam (orange) et RMSProp (vert). Le graphique de gauche montre les résultats pour CIFAR100 et le graphique de droite pour Imagenette. Dans les deux graphiques, les trois optimiseurs produisent de petites variations négatives de précision similaires à la bande de fréquence la plus basse (r=0), indiquant une sensibilité comparable aux perturbations de basse fréquence. À mesure que r augmente vers des bandes de fréquences plus élevées, les trois lignes divergent nettement. Dans le graphique CIFAR100, SGD montre la plus forte baisse de précision dans les bandes de fréquences plus élevées, atteignant environ -12%, tandis qu’Adam et RMSProp présentent moins de sensibilité et suivent des trajectoires plus superficielles. Le graphique d’Imagenette montre un motif de divergence similaire entre les trois optimiseurs dans des bandes de fréquences plus élevées, mais avec des magnitudes différentes. La légende note que, bien que les perturbations de basse fréquence affectent tous les modèles de manière similaire, les réponses des modèles varient significativement lorsque les perturbations se concentrent sur des bandes de fréquences plus élevées.
Figure 3 : L’effet des perturbations gaussiennes à bande limitée sur les modèles entraînés avec SGD, Adam et RMSProp. Les perturbations provenant de la bande la plus basse ont un effet similaire sur tous les modèles, tandis que les réponses des modèles varient significativement lorsque la perturbation se concentre sur des bandes de fréquences supérieures.

Cela mène à notre prochaine expérience. La figure 3 montre comment la précision de la classification se dégrade sous différents bruits gaussiens limités par la bande sur CIFAR100 et Imagenette. Remarquez que la perturbation à partir de la bande la plus basse a un impact similaire sur tous les modèles, peu importe l’algorithme avec lequel ils sont entraînés. Il existe cependant une différence notable dans la façon dont les modèles entraînés par SGD et les méthodes de gradient adaptatif répondent aux perturbations provenant de bandes de fréquences plus élevées.

Cette observation montre que lorsque les modèles, durant leur phase d’entraînement, n’ont pas de mécanismes en place pour limiter leur utilisation de fréquences non pertinentes, leur performance peut être compromise si les données sur des fréquences non pertinentes sont corrompues au moment du test.

Analyse de régression linéaire avec un modèle surparamétré

En plus des études empiriques, nous analysons théoriquement la dynamique d’apprentissage de la descente de gradient (GD) et de la descente de gradient de signe (signGD), une version sans mémoire d’Adam et RMSProp, à l’aide de modèles linéaires. Nous présentons brièvement la configuration du problème et résumons les résultats clés. Pour plus de détails, nous dirigeons le lecteur vers notre article. 

Nous nous concentrons sur la régression des moindres carrés et comparons le risque standard et adversarial des solutions asymptotiques obtenues par le GD et le signGD. Motivés par nos observations précédentes, nous concevons un ensemble de données synthétique qui imite les propriétés d’un jeu de données naturel en spécifiant des fréquences qui ne sont pas pertinentes pour générer la véritable cible. Nous nous intéressons particulièrement au risque standard :

Une équation définissant le risque standard. L’expression se lit comme suit : R-indice de w, défini comme égal à l’espérance de la valeur absolue de w transposée X moins Y, au carré. Dans cette expression, R-indice-s désigne le risque standard, w est le vecteur de poids, X est l’entrée et Y est l’étiquette.

et le risque adversarial sous perturbations bornées par la norme L2 :

Une équation définissant le risque adversaire. L’expression se lit comme suit : R-indice-a de w, défini comme égal à l’espérance du maximum sur tout Δx où la norme l₂ de Δx est inférieure ou égale à ε, de la valeur absolue de w-transposée multipliée par la quantité X plus Δx, moins Y, au carré. Dans cette expression, R-indice-a désigne le risque adversaire, w est le vecteur de poids, Δx est une perturbation adversaire bornée par ε dans la norme l₂, X est l’entrée et Y est l’étiquette

Nos principaux résultats sont triples.

1. Des informations non pertinentes mènent à plusieurs minimiseurs de risque standards. Pour un minimiseur arbitraire, on peut obtenir son risque adversarial comme suit :

Une équation exprimant le risque adversarial en forme fermée aux poids optimaux. L’expression se lit comme suit : R-indice-a de w-exposant-astérisque égal à épsilon au carré sur 2, multiplié par la norme l₂ de w-exposant-astérisque au carré. Dans cette expression, w-exposant-astérisque désigne le vecteur poids optimal, ε est la borne de perturbation adversaire et la norme l₂ au carré de w-exposant-astérisque capture la sensibilité du modèle aux perturbations adverses.

Cela signifie que pour la robustesse des modèles aux limites de la norme l2, les variations sont inversement proportionnelles à la norme de poids des paramètres du modèle : une norme de poids plus petite implique une meilleure robustesse.

2. Avec un taux d’apprentissage suffisamment faible, le risque standard des solutions obtenues par GD et signGD peut être proche de 0.

3. Considérons un espace d’entrée tridimensionnel. Le ratio entre le risque adversarial de la solution de GD et de la solution de signe GD est toujours supérieur à 1 :

Une inégalité comparant le risque adversarial d’un modèle entraîné avec la descente du gradient de signe versus la descente du gradient standard. L’expression se lit comme suit : le rapport entre R-indice-a de w-indice-signe GD et R-indice-a de w-exposant-GD est strictement supérieur à 1 plus C. Dans cette expression, w-exposant-signeGD désigne les poids entraînés en utilisant la descente du gradient de signe, w-exposant-GD désigne les poids entraînés avec la descente du gradient standard, R-indice-a désigne le risque adversaire et C est une constante positive. L’inégalité affirme que la descente par gradient de signe produit un modèle avec un risque adversaire strictement plus élevé que la descente par gradient standard, d’au moins C.

où C>0 et sa valeur dépendent de l’initialisation des poids et de la covariance des données.

Ces deux dernières constatations sont particulièrement importantes. Ils fournissent des éclairages qui aident à expliquer les phénomènes observés à la Figure 1, en particulier les niveaux similaires de généralisation standard entre les modèles et les variations de leur robustesse. Les derniers résultats soulignent que le modèle linéaire tridimensionnel obtenu par GD présente constamment une plus grande robustesse face l₂Perturbations bornées par -normes comparées au modèle obtenu à partir de signGD.

Relier la norme des modèles linéaires à la lipschitzness des réseaux de neurones

Les premiers résultats de l’analyse linéaire montrent que pour les minimiseurs de risque standards, sa robustesse face l₂ la perturbation est proportionnelle à son poids. Pour généraliser ce résultat dans le contexte de l’apprentissage profond, on établit un lien entre la norme de poids et la Lipschitzness des réseaux de neurones.

Considérons le réseau de neurones en avance comme une série de compositions de fonctions :

Une équation définissant un réseau de neurones à avance comme une composition de fonctions. L’expression se lit comme suit : f de x équivaut à la composition de φ-sous-indice-l, φ-indice-l-moins 1, jusqu’à φ-indice-1, appliqué à x. Le symbole ∘ désigne la composition des fonctions et les indices indexent chaque couche de 1 à l, où l est le nombre total de couches.

où chacun φ est une opération linéaire, une fonction d’activation ou des opérations de mise en commun. Désignant la constante de fonction de Lipschitz f comme L(f) nous pouvons établir une borne supérieure sur la constante de Lipschitz pour l’ensemble du réseau de neurones en avance en utilisant .

Une inégalité établissant une borne supérieure sur la constante de Lipschitz d’un réseau de neurones feed-forward. L’expression se lit comme suit : L de f est inférieur ou égal au produit de i égal à 1 à l de L de φ-indice-i. Dans cette expression, L de f est la constante de Lipschitz du réseau complet, l est le nombre total de couches et L de φ-indice-i est la constante de Lipschitz de la composante de la i-ème couche. L’inégalité affirme que la constante de Lipschitz globale du réseau est bornée au-dessus par le produit des constantes de Lipschitz de la couche individuelle.

L’approximation de la Lipschitzness des composants du réseau de neurones, comme les convolutions et les connexions de saut, dépend souvent de la norme des poids. Cette méthode nous permet d’établir des liens entre la norme de poids d’un réseau de neurones et sa robustesse. Essentiellement, une norme de poids inférieure suggère une borne supérieure plus petite sur la constante de Lipschitz, ce qui indique que les modèles sont moins sujets aux perturbations.

Tableau 1 comparant la borne supérieure de la constante de Lipschitz et la moyenne de la précision robuste des réseaux de neurones sur sept ensembles de données – MNIST, Fashion, CIFAR10, CIFAR100, SVHN, Caltech101 et Imagenette – pour trois optimiseurs : SGD, Adam et RMSProp. Le tableau comporte deux groupes de lignes. Le premier groupe montre la borne supérieure de la constante de Lipschitz, exprimée comme le produit de i=1 à l de L(φi). Valeurs SGD : 3,83, 3,83, 26,81, 40,41, 22,65, 18,53, 23,99. Valeurs d’Adam : 5,75, 8,12, 28,70, 41,87, 30,45, 26,20, 28,55. Valeurs RMSProp : 6,21, 5,11, 37,75, 41,71, 28,31, 45,84, 27,11. Le deuxième groupe montre une précision robuste moyenne. SGD : 77,97%, 77,95%, 63,21%, 55,65%, 69,08%, 71,42%, 67,59%. Adam : 65,64%, 67,60%, 57,71%, 45,25%, 65,60%, 55,03%, 58,86%. RMSProp : 63,54%, 71,34%, 56,47%, 47,55%, 65,37%, 53,16%, 57,98%. Dans tous les ensembles de données, SGD produit constamment la plus petite borne supérieure constante de Lipschitz et la plus grande précision robuste moyenne comparée à Adam et RMSProp, comme indiqué dans la légende.
Tableau 1 : Comparaison de la borne supérieure sur la constante de Lipschitz et de la précision robuste moyenne des réseaux de neurones. Remarquez que dans tous les ensembles de données sélectionnés, les modèles entraînés par SGD ont une borne supérieure considérablement plus faible comparée aux modèles entraînés par Adam et RMSProp.

Les résultats du tableau 1 démontrent que les réseaux de neurones entraînés au SGD ont des constantes de Lipschitz considérablement plus faibles, ce qui explique la meilleure robustesse aux perturbations d’entrée que ceux entraînés avec des méthodes de gradient adaptatif comme montré à la Figure 1.

Notre travail souligne l’importance du choix des optimiseurs pour atteindre à la fois la généralisation et la robustesse. Cette compréhension fait non seulement progresser notre compréhension de la robustesse des réseaux neuronaux, mais oriente aussi les recherches futures dans le développement de stratégies d’optimisation qui maintiennent une grande précision tout en étant résilientes aux perturbations d’entrée, ouvrant la voie à des applications d’apprentissage automatique plus sûres et fiables.