Blog de recherche sur les vecteurs : Votre réseau de neurones est-il à risque? Le piège des optimiseurs à gradient adaptatif
12 mars 2024
12 mars 2024
Par Avery Ma, Yangchen Pan et Amir-Massoud Farahmand
En résumé; dr : Nos analyses empiriques et théoriques révèlent que les modèles entraînés avec la descente du gradient stochastique présentent une robustesse significativement plus élevée aux perturbations d’entrée que ceux entraînés par des méthodes de gradient adaptatif. Cela signifie que certaines techniques d’entraînement rendent les systèmes d’apprentissage automatique plus fiables et moins susceptibles d’être perturbés par des changements inattendus dans les données d’entrée.
Vous êtes-vous déjà demandé quelles sont les différences entre les modèles entraînés avec différents optimiseurs? Les recherches en cours portent sur l’impact de ces optimiseurs sur la performance de généralisation standard d’un modèle : leur précision sur l’ensemble de test original. Dans cet article, nous explorons comment ils peuvent faire ou défaire la robustesse des modèles face aux perturbations d’entrée, que ce soit la descente stochastique du gradient (SGD) ou le gradient adaptatif d’équipe.

Nous commençons par mettre des modèles entraînés avec SGD, Adam et RMSProp côte à côte. Le résultat est résumé à la Figure 1. Nous nous concentrons sur deux critères dans cette figure. Premièrement, les trois graphiques s’alignent sur le même axe Y, ce qui indique la précision standard des tests. Les trois axes X montrent la précision du modèle sous diverses perturbations d’entrée. Les modèles entraînés par SGD, Adam et RMSProp sont marqués respectivement par une étoile, un cercle et un losange. Chaque triplet coloré désigne des modèles sur le même ensemble de données.
Il existe un petit écart vertical entre chaque triplet, ce qui montre que les modèles offrent des performances de généralisation standard similaires malgré leur entraînement par des algorithmes différents.
D’un autre côté, sous les trois types de perturbations, il y a une grande portée horizontale avec l’étoile toujours positionnée tout à droite parmi les trois. Cela indique que les modèles entraînés par SGD sont clairement les gagnants en termes de robustesse face aux perturbations. Des résultats similaires peuvent être observés avec des transformateurs de vision ou d’autres modalités de données.
Pour comprendre ce phénomène, nous l’étudions à travers le prisme d’une analyse dans le domaine de la fréquence. Premièrement, nous remarquons que les ensembles de données naturels contiennent certaines fréquences qui n’ont pas d’impact significatif sur la performance de généralisation standard des modèles. Mais voici le rebondissement : sous certains optimiseurs, ce type d’information non pertinente peut en fait rendre le modèle plus vulnérable. Plus précisément, notre affirmation principale est que :
Pour optimiser l’objectif d’entraînement standard, les modèles doivent seulement apprendre à utiliser correctement l’information pertinente dans les données. Cependant, leur utilisation d’informations non pertinentes dans les données est sous-contrainte et peut mener à des solutions sensibles aux perturbations.
À cause de cela, en injectant des perturbations dans des parties du signal contenant des informations non pertinentes, on observe que les modèles entraînés par différents algorithmes présentent des changements de performance très différents.
Pour démontrer que des fréquences non pertinentes existent lors de l’entraînement d’un classificateur de réseau neuronal, nous considérons une tâche d’apprentissage supervisé, en supprimant l’information non pertinente de l’entrée d’entraînement, puis en évaluant la performance du modèle à partir des données de test originales.

Lorsque nous modifions les données d’entraînement en retirant des parties du signal qui ont soit une faible énergie (Figure 2, à gauche) soit de haute fréquence (Figure 2, à droite), nous constatons que cela n’affecte pas vraiment la précision des modèles sur l’ensemble de test original. Cela suggère qu’il existe une quantité considérable d’informations non pertinentes du point de vue d’un réseau de neurones.
Cette observation mène à la première partie de notre affirmation, selon laquelle les modèles n’ont qu’à apprendre à utiliser correctement les informations cruciales définissant la classe issues des données d’entraînement pour optimiser l’objectif d’entraînement. D’un autre côté, la mesure dans laquelle ils utilisent des informations non pertinentes dans les données n’est pas bien réglementée. Cela peut poser problème et mener à des solutions sensibles aux perturbations.
Concentrons-nous maintenant sur la deuxième partie de la revendication. Si les réponses des modèles aux perturbations sur les fréquences non pertinentes expliquent leur différence de robustesse, alors on devrait s’attendre à une baisse de précision similaire entre les modèles lorsque les perturbations sont sur des fréquences pertinentes, mais une baisse de précision beaucoup plus importante sur les modèles moins robustes lorsque les entrées de test sont perturbées sur des fréquences non pertinentes.

Cela mène à notre prochaine expérience. La figure 3 montre comment la précision de la classification se dégrade sous différents bruits gaussiens limités par la bande sur CIFAR100 et Imagenette. Remarquez que la perturbation à partir de la bande la plus basse a un impact similaire sur tous les modèles, peu importe l’algorithme avec lequel ils sont entraînés. Il existe cependant une différence notable dans la façon dont les modèles entraînés par SGD et les méthodes de gradient adaptatif répondent aux perturbations provenant de bandes de fréquences plus élevées.
Cette observation montre que lorsque les modèles, durant leur phase d’entraînement, n’ont pas de mécanismes en place pour limiter leur utilisation de fréquences non pertinentes, leur performance peut être compromise si les données sur des fréquences non pertinentes sont corrompues au moment du test.
En plus des études empiriques, nous analysons théoriquement la dynamique d’apprentissage de la descente de gradient (GD) et de la descente de gradient de signe (signGD), une version sans mémoire d’Adam et RMSProp, à l’aide de modèles linéaires. Nous présentons brièvement la configuration du problème et résumons les résultats clés. Pour plus de détails, nous dirigeons le lecteur vers notre article.
Nous nous concentrons sur la régression des moindres carrés et comparons le risque standard et adversarial des solutions asymptotiques obtenues par le GD et le signGD. Motivés par nos observations précédentes, nous concevons un ensemble de données synthétique qui imite les propriétés d’un jeu de données naturel en spécifiant des fréquences qui ne sont pas pertinentes pour générer la véritable cible. Nous nous intéressons particulièrement au risque standard :

et le risque adversarial sous perturbations bornées par la norme L2 :

Nos principaux résultats sont triples.
1. Des informations non pertinentes mènent à plusieurs minimiseurs de risque standards. Pour un minimiseur arbitraire, on peut obtenir son risque adversarial comme suit :

Cela signifie que pour la robustesse des modèles aux limites de la norme l2, les variations sont inversement proportionnelles à la norme de poids des paramètres du modèle : une norme de poids plus petite implique une meilleure robustesse.
2. Avec un taux d’apprentissage suffisamment faible, le risque standard des solutions obtenues par GD et signGD peut être proche de 0.
3. Considérons un espace d’entrée tridimensionnel. Le ratio entre le risque adversarial de la solution de GD et de la solution de signe GD est toujours supérieur à 1 :

où C>0 et sa valeur dépendent de l’initialisation des poids et de la covariance des données.
Ces deux dernières constatations sont particulièrement importantes. Ils fournissent des éclairages qui aident à expliquer les phénomènes observés à la Figure 1, en particulier les niveaux similaires de généralisation standard entre les modèles et les variations de leur robustesse. Les derniers résultats soulignent que le modèle linéaire tridimensionnel obtenu par GD présente constamment une plus grande robustesse face Perturbations bornées par -normes comparées au modèle obtenu à partir de signGD.
Les premiers résultats de l’analyse linéaire montrent que pour les minimiseurs de risque standards, sa robustesse face la perturbation est proportionnelle à son poids. Pour généraliser ce résultat dans le contexte de l’apprentissage profond, on établit un lien entre la norme de poids et la Lipschitzness des réseaux de neurones.
Considérons le réseau de neurones en avance comme une série de compositions de fonctions :

où chacun est une opération linéaire, une fonction d’activation ou des opérations de mise en commun. Désignant la constante de fonction de Lipschitz
comme
nous pouvons établir une borne supérieure sur la constante de Lipschitz pour l’ensemble du réseau de neurones en avance en utilisant .

L’approximation de la Lipschitzness des composants du réseau de neurones, comme les convolutions et les connexions de saut, dépend souvent de la norme des poids. Cette méthode nous permet d’établir des liens entre la norme de poids d’un réseau de neurones et sa robustesse. Essentiellement, une norme de poids inférieure suggère une borne supérieure plus petite sur la constante de Lipschitz, ce qui indique que les modèles sont moins sujets aux perturbations.

Les résultats du tableau 1 démontrent que les réseaux de neurones entraînés au SGD ont des constantes de Lipschitz considérablement plus faibles, ce qui explique la meilleure robustesse aux perturbations d’entrée que ceux entraînés avec des méthodes de gradient adaptatif comme montré à la Figure 1.
Notre travail souligne l’importance du choix des optimiseurs pour atteindre à la fois la généralisation et la robustesse. Cette compréhension fait non seulement progresser notre compréhension de la robustesse des réseaux neuronaux, mais oriente aussi les recherches futures dans le développement de stratégies d’optimisation qui maintiennent une grande précision tout en étant résilientes aux perturbations d’entrée, ouvrant la voie à des applications d’apprentissage automatique plus sûres et fiables.