Les chercheurs de l’Institut Vector se réunissent de nouveau pour la deuxième édition de l’atelier sur la confidentialité et la sécurité sur l’apprentissage automatique

16 septembre 2024

Recherche en apprentissage automatique2024

La deuxième édition de l’atelier sur la sécurité et la confidentialité de l’apprentissage automatique de Vector a réuni plusieurs membres du corps professoral, affiliés au corps professoral, boursiers postdoctoraux et chercheurs issus de la communauté de recherche Vector au sens large. Lors de l’événement de juillet, les participants ont discuté des innovations en matière de sécurité et de confidentialité en apprentissage automatique, des tendances émergentes, des outils et techniques pratiques, ainsi que des résultats de la recherche.

Les avancées technologiques peuvent présenter d’énormes opportunités ainsi que des risques potentiellement tout aussi importants. L’objectif principal de l’atelier était de bâtir une communauté de chercheurs à l’intersection des systèmes d’apprentissage automatique et de l’informatique fiable et sécurisée. Mais les avancées rapides dans le domaine ont non seulement conduit à des appels à la création d’outils de pointe, mais aussi à garantir que l’avancement continu de la technologie soit respectueux de la vie privée, sécuritaire et responsable.

« Les problèmes de robustesse, de confidentialité, de quantification de l’incertitude et plus encore sont des enjeux critiques qui empêchent un déploiement à enjeux élevés dans le monde réel », explique Gautam Kamath, membre du corps professoral de Vector et organisateur de l’atelier. « Parfois, certaines menaces sont marginalisées et ignorées. Mais les vulnérabilités techniques sous-jacentes se répètent encore et encore, avec des conséquences plus graves en cas d’échec à chaque fois. Il est important que la communauté du Vector Institute, en collaboration avec la communauté élargie de l’apprentissage automatique, travaille ensemble pour résoudre ces problèmes. »

Hassan Ashtiani, affilié au corps professoral de Vector, présentant lors de l’atelier.

Hassan Ashtiani, affilié au corps professoral de Vector, présentant lors de l’atelier.

Robustesse

Un aspect crucial du déploiement de l’apprentissage automatique est sa vulnérabilité potentielle face aux attaques adversaires. Au cours des dix dernières années, une riche littérature sur la théorie de l’apprentissage a émergé pour étudier les fondements mathématiques de l’apprentissage robuste (apprentissage en présence d’un adversaire en déploiement). Cependant, de nombreux travaux théoriques (en apprentissage robuste et non robuste) offrent des garanties qui ne sont pas vérifiées lors de l’ajout de l’exigence que l’apprenant doit être un algorithme calculable; Il existe une procédure qui s’arrête toujours sur tous les échantillons potentiels. La boursière postdoctorale Vector Pascale Gourdeau a donné une conférence sur la calculabilité de l’apprentissage robuste, basée sur un travail conjoint avec la future boursière postdoctorale Vector Tosca Lechner et Ruth Urner, affiliée à la faculté Vector. Ils ont démontré qu’en ajoutant la simple exigence de calculabilité, le paysage de l’apprentissage robuste change considérablement. Ils ont aussi introduit une mesure de complexité qui limite inférieure, mais pas les bornes supérieures, du nombre d’échantillons nécessaires pour apprendre dans ce cadre. 

La nouvelle boursière postdoctorale Vector Tosca Lechner, également doctorante à l’Université de Waterloo, a discuté de ses travaux sur l’apprentissage robuste avec des capacités de manipulation incertaines. Un défi auquel font face les classificateurs appris après le déploiement est que les instances entrantes peuvent adapter leur présentation de caractéristiques ou même induire intentionnellement en erreur le classificateur en modifiant la représentation d’une manière imperceptible pour les humains. Les domaines de la classification stratégique et de l’apprentissage robuste à l’adversité traitent de ces contextes. Les capacités de manipulation ou les régions de changement imperceptible pour les deux sont souvent supposées être connues de l’apprenant. En réalité, les connaissances préalables sur ces capacités sont plus limitées.

S’appuyant sur un travail conjoint avec Shai Ben-David, membre du corps professoral de Vector et président IA du CIFAR Canada, Ruth Urner , affiliée à Vector et Vinayak Pathak, la conférence a introduit la notion d’apprentissage PAC robuste et stratégiquement robuste pour une classe de structures plausibles de manipulation des candidats, et a examiné quelles connaissances préalables des candidats permettaient des garanties d’apprentissage. Dans le contexte adversaire, l’abstention ainsi qu’un accès oracle supplémentaire peuvent garantir l’apprentissage. Apprendre les capacités de manipulation à partir des changements de distribution peut rendre un apprentissage stratégiquement robuste possible.

Prédiction conforme

La quantification de l’incertitude (UQ) dans les réseaux neuronaux profonds (DNN) joue un rôle crucial dans des applications critiques pour la sécurité, telles que le diagnostic médical et la robotique. Une simple prédiction ponctuelle d’un DNN, sans rapporter la confiance du modèle dans sa prédiction, peut être trompeuse. Par exemple, un classificateur DNN d’une image CT pulmonaire peut prédire qu’un patient est en bonne santé parmi six issues possibles ou plus, y compris la santé, la fibrose pulmonaire, le cancer du poumon, la pneumonie, la MPOC et l’asthme. Dans un tel cas, un médecin qui envisage l’imagerie diagnostique assistée par IA peut demander des tests diagnostiques supplémentaires si le modèle peut affirmer que sa prédiction de la santé du patient entraîne une forte incertitude (seulement 55% de confiance), contrairement à un cas où le modèle est confiant à 80%. Dans sa conférence, Reza Samavi, membre affilié au Vector Faculty et également professeur agrégé à l’Université métropolitaine de Toronto, a présenté un Pred conformeiMéthode ction pour les modèles DNN où une prédiction ponctuelle est remplacée par un ensemble de prédictions où le modèle est très confiant (disons, 90%) que le véritable résultat est dans l’ensemble. 

Au lieu que le modèle prédise simplement que le patient est en santé avec une faible confiance, il peut prédire avec une grande confiance que le résultat est l’un des suivants : santé, pneumonie ou fibrose pulmonaire. Cela suggère au médecin qu’une enquête supplémentaire pourrait être nécessaire. De cette façon, l’ensemble traduit la notion heuristique d’incertitude en une notion rigoureuse avec plusieurs avantages par rapport aux méthodes de quantification de l’incertitude dépendantes de la distribution, telles que MC-Dropout. Cette approche est sans distribution, peut fonctionner sur n’importe quel modèle boîte noire, et ne fait presque aucune hypothèse. En particulier, les recherches de Samavi ont montré qu’avec une surcharge négligeable, la taille optimale de l’ensemble de prédiction est atteignable. En utilisant des preuves déjà disponibles dans la couche logit d’un DNN, le classificateur peut être calibré après le déploiement, particulièrement lorsque le modèle est déployé dans un environnement hors distribution, comme lorsque le modèle d’imagerie diagnostique est entraîné sur une population nord-américaine, mais est déployé ailleurs. La quantification de l’incertitude conduit à la construction de modèles avec moins de biais et plus d’équité.

Confidentialité différentielle

Hassan Ashtiani, membre affilié au Vector Faculty et également professeur agrégé à l’Université McMaster, a parlé de la résolution du problème classique de la sélection d’hypothèses sous la contrainte de la vie privée différentielle locale (PLD). Le LDP a été le modèle privilégié de vie privée dans plusieurs applications sensibles utilisées par des entreprises comme Apple, Google et Microsoft. Contrairement au modèle central de la vie privée, dans le modèle PLD, les individus n’ont pas besoin de faire confiance à une entité centrale pour collecter et gérer des données privées. Au lieu de cela, la vie privée est appliquée localement, par exemple sur les appareils personnels des individus. LDP convient aussi à des contextes comme l’apprentissage fédéré où l’apprentissage se fait de manière distribuée. Ashtiani a également évoqué leur travail récent avec Shahab Asoodeh, membre affilié de Vector Faculty et également professeur adjoint à l’Université McMaster, et Alireza Pour sur le problème fondamental de la sélection d’hypothèses dans le modèle LDP. Il est à noter la découverte que tout algorithme optimal pour l’échantillon pour ce problème nécessiterait plusieurs cycles d’interactions.

Sasho Nikolov, membre affilié de la faculté Vector, présente lors de l’atelier.

Sasho Nikolov, membre affilié de la faculté Vector, présente lors de l’atelier.

L’estimation statistique privée vise à calculer des estimations précises sur une population sans révéler d’informations privées sur un individu. Un problème fondamental dans ce domaine est l’estimation de la moyenne, dans laquelle les données de chaque individu sont codées comme un vecteur de haute dimension (liste de nombres) et dont l’objectif est d’estimer la moyenne des vecteurs. Une méthode de base pour l’estimation privée de la moyenne consiste à calculer la moyenne, puis à assurer la confidentialité en ajoutant du bruit soigneusement corrélé tiré de la distribution normale à chaque coordonnée. Cette méthode a l’avantage d’être impartiale — le bruit est également susceptible d’augmenter ou de diminuer la moyenne réelle dans n’importe quelle direction. Dans sa présentation, Aleksandar Nikolov, membre affilié de la faculté vectorielle, également professeur agrégé à l’Université de Toronto, a montré comment optimiser les corrélations entre les bruits pour minimiser l’erreur et démontrer que, grâce à ces corrélations optimales, ajouter du bruit normalement distribué est la méthode la plus précise d’estimation privée non biaisée de la moyenne.

Les préoccupations concernant la fuite de la vie privée des données des utilisateurs finaux ont freiné l’utilisation de modèles sophistiqués déployés dans le nuage, comme l’apprentissage automatique en tant que service. Une méthode pour atténuer cette fuite est d’ajouter un bruit local différemment privé aux requêtes sensibles avant de les envoyer au cloud. Mais cela dégrade l’utilité du modèle cloud comme effet secondaire, puisqu’il génère des sorties potentiellement erronées sur les requêtes bruitées. David Lie, membre affilié de Vector Faculty et également professeur à l’Université de Toronto, a démontré qu’au lieu d’accepter la perte d’utilité, on peut déployer un modèle fiable sur un appareil appartenant à l’utilisateur et l’entraîner avec des connaissances agrégées disponibles dans les étiquettes bruitées et potentiellement incorrectes provenant des requêtes bruitées au modèle cloud pour récupérer les bonnes étiquettes.

Les étudiants diplômés présentent leurs recherches lors d’une séance de posters.

Apprentissage fédéré

Le cadre standard en apprentissage automatique considère un ensemble de données centralisé traité dans un système étroitement intégré. Cependant, dans le monde réel, les données sont souvent réparties entre plusieurs parties. Le partage direct de données peut être interdit en raison de préoccupations liées à la vie privée. C’est là que l’apprentissage fédéré (FL) entre en jeu. FL permet d’entraîner des modèles globaux de façon collaborative tout en conservant les données sur des sites locaux. Seules les informations locales sur le modèle sont partagées. 

En FL typique, un serveur coordonne l’entraînement du modèle entre sites locaux — appelés clients — et exige qu’ils partagent les paramètres/poids du modèle avec le serveur pour l’agrégation de modèles. Avec l’algorithme FedAvg, cette agrégation est mise en œuvre en moyennant les poids du modèle. Cependant, pour FL traditionnel, s’appuyer sur un serveur centralisé peut augmenter la vulnérabilité et la confiance. De plus, les architectures de modèles locaux peuvent varier en raison de différentes ressources de calcul locales, et les données provenant de clients différents peuvent être déplacées. En tenant compte de ces contextes pratiques, Xiaoxiao Li, membre du corps professoral de Vector et présidente d’IA au Canada au CIFAR, également professeure adjointe à l’Université de British Columba, a proposé une nouvelle technique décentralisée FL en introduisant des ancrages synthétiques. Appelée DeSA, cette technique assouplit les restrictions et les hypothèses pour améliorer le transfert de connaissances en Floride. Plus précisément, Li a proposé de partager les données synthétiques des sites locaux avec des protections de confidentialité différentes. Appelés ancres locaux, ils capturent les distributions locales des données et seront partagés entre les clients avant la formation FL. Ensuite, les clients agrégeront les ancrages locaux partagés en ancrages globaux. Pendant la FL, les clients utilisent à la fois les données locales et l’ancrage global pour mettre à jour les modèles locaux selon l’objectif d’entraînement. Concernant l’information à partager, les clients n’ont qu’à échanger les logits de sortie du modèle entre eux, et l’échange d’informations peut se faire par distillation de connaissances. De plus, les ancrages mondiaux agissent comme un régulariseur pour harmoniser les caractéristiques apprises auprès de différents clients. L’ensemble du pipeline, illustré à la Figure 1, permet à différents clients avec des données et des modèles hétérogènes de collaborer efficacement en tenant compte de la confidentialité.

L’ancrage mondial partagé facilite l’échange sécurisé d’informations entre les collaborateurs

Figure 1 : L’ancrage mondial partagé facilite l’échange sécurisé d’informations entre collaborateurs (Source : diapositives de présentation ICML de DeSA, Huang, C. Y., Srinivas, K., Zhang, X., & Li, X.*, Surmonter les hétérogénéités de données et de modèles dans l’apprentissage fédéré décentralisé via des ancrages synthétiques. En 2024 : Conférence internationale sur l’apprentissage automatique)

La vie privée en pratique

Masoumeh Shafieinejad, scientifique en apprentissage automatique appliqué au sein de l’équipe d’ingénierie de l’IA de Vector, a parlé d’un portefeuille de projets axés sur les technologies d’amélioration de la vie privée (PET), travail réalisé en collaboration avec les parties prenantes de Vector, dont Vector Faculty et président canadien CIFAR IA Xi He, Amii et RBC.

Axé sur la promotion de la vie privée dès la conception dans les secteurs de la finance et de la santé, le travail de Shafieinejad sur la génération de données synthétiques pour les données tabulaires multi-tables a été bien accueilli pour adoption par l’industrie. Elle favorise également la collaboration sécuritaire et préservant la vie privée entre diverses organisations, dans le contexte de la génération de données tabulaires synthétiques multipartites et de l’apprentissage fédéré pour les données de santé. 

En tant que chercheur appliqué, il est tout aussi important pour Shafieinejad d’étudier les facteurs qui facilitent ou entravent l’adoption des technologies de confidentialité par l’industrie. Cette enquête revêt une importance particulière compte tenu du projet de loi à venir du gouvernement canadien (C27) visant à renforcer la protection de la vie privée et à lutter contre les risques liés à l’IA. Shafieinejad a souligné la nécessité de traduire les résultats techniques de l’évaluation de la vie privée en évaluations des risques significatives pour l’industrie et le gouvernement. Elle a terminé son exposé en appelant à une discussion plus approfondie et à une collaboration sur le sujet.

Masoumeh Shafieinejad présente lors de l’atelier

Masoumeh Shafieinejad, scientifique en apprentissage automatique appliqué par Vector – Technologies d’amélioration de la vie privée, présente lors de l’atelier

Qu’est-ce qui vient ensuite?

Des études multidisciplinaires et des discussions multipartites sont essentielles pour relever les défis complexes engendrés par l’avancement de l’IA. Leur objectif : développer des solutions pratiques et fiables qui assurent la sécurité tout en favorisant un environnement agile et en permettant le déploiement sécurisé d’applications d’IA innovantes tout en préservant la confidentialité des données.

Malgré les progrès réalisés grâce aux avancées en recherche mentionnées ci-dessus, des questions importantes demeurent dans le domaine de la sécurité et de la confidentialité de l’apprentissage automatique. Par exemple, les avancées futures nous permettront-elles d’entraîner des modèles d’apprentissage automatique à partir de données synthétiques? De plus, comment intégrer plus efficacement la confidentialité et les garanties de confidentialité dans la conception de la prochaine génération de modèles d’apprentissage profond?

Regardez les présentations de la première édition de l’atelier Vector Machine Learning Security and Privacy Workshop.

Vous cherchez plus?

Gautam Kamath, membre du corps professoral de Vector et président IA du CIFAR au Canada, explique les dernières avancées en matière de robustesse et de confidentialité.

À lire aussi :

2026
Réflexions
Recherche
Recherche 2026

La nouvelle cartographie de l’invisible

Les femmes écrivent sur un tableau blanc. Il y a un homme à sa gauche qui regarde le tableau.
2025
Recherche
Recherche 2025

Les chercheurs en vecteurs font avancer les frontières de l’IA avec 80 articles au NeurIPS 2025

2025
Apprentissage automatique
Recherche
Recherche 2025

Quand l’IA intelligente devient trop intelligente : Principaux enseignements de l’atelier 2025 sur la sécurité et la vie privée en apprentissage automatique de Vector