Les chercheurs de l'Institut Vecteur se réunissent à nouveau pour la deuxième édition de l'atelier sur la confidentialité et la sécurité de l'apprentissage automatique (Machine Learning Privacy and Security Workshop)
16 septembre 2024
16 septembre 2024
La deuxième édition de l'atelier de Vector sur la sécurité et la confidentialité de l'apprentissage automatique a rassemblé un certain nombre de membres du corps professoral de Vector, de membres affiliés du corps professoral, de boursiers postdoctoraux et de chercheurs de la communauté de recherche de Vector au sens large. Lors de l'événement de juillet, les participants ont discuté des innovations en matière de sécurité et de confidentialité de l'apprentissage automatique, des tendances émergentes, des outils et techniques pratiques et des résultats de la recherche.
Les progrès technologiques peuvent présenter des opportunités considérables, mais aussi des risques potentiellement tout aussi importants. L'objectif premier de l'atelier était de créer une communauté de chercheurs à l'intersection des systèmes de ML et de l'informatique fiable et sécurisée. Mais les avancées rapides dans ce domaine n'ont pas seulement conduit à des appels à la création d'outils de pointe, mais aussi à la nécessité de veiller à ce que les progrès continus de la technologie préservent la vie privée, soient sûrs et responsables.
"Les problèmes de robustesse, de confidentialité, de quantification de l'incertitude et autres sont des questions critiques qui empêchent un déploiement dans le monde réel avec des enjeux importants", explique Gautam Kamath, membre de la faculté Vector et organisateur de l'atelier. "Parfois, des menaces spécifiques sont marginalisées et ignorées. Mais les vulnérabilités techniques sous-jacentes reviennent sans cesse, avec à chaque fois des conséquences plus graves en cas d'échec. Il est important que la communauté de l'Institut Vecteur, en tandem avec la communauté plus large de l'apprentissage automatique, travaille ensemble pour résoudre ces problèmes."
Hassan Ashtiani, affilié à la faculté Vector, présente l'atelier.
Un aspect crucial du déploiement de l'apprentissage automatique est sa vulnérabilité potentielle aux attaques adverses. Au cours des dix dernières années, une abondante littérature sur la théorie de l'apprentissage a vu le jour pour étudier les fondements mathématiques de l'apprentissage robuste (apprentissage en présence d'un adversaire au moment du déploiement). Cependant, de nombreux travaux théoriques (tant dans le domaine de l'apprentissage robuste que dans celui de l'apprentissage non robuste) donnent des garanties qui ne tiennent pas si l'on ajoute l'exigence selon laquelle l'apprenant doit être un algorithme calculable ; il existe une procédure qui s'arrête toujours sur tous les échantillons potentiels. Pascale Gourdeau, boursière postdoctorale de Vector, a présenté un exposé sur la calculabilité de l'apprentissage robuste, basé sur un travail conjoint avec Tosca Lechner, nouvelle boursière postdoctorale de Vector, et Ruth Urner, membre affiliée de la faculté de Vector. Ils ont montré qu'en ajoutant la simple exigence de calculabilité, le paysage de l'apprentissage robuste change considérablement. Elles ont également introduit une mesure de complexité qui limite le nombre d'échantillons nécessaires pour apprendre dans ce cadre, mais pas le nombre d'échantillons supérieurs.
Tosca Lechner, nouvelle boursière postdoctorale de Vector, qui est également candidate au doctorat à l'université de Waterloo, a présenté ses travaux sur l'apprentissage robuste avec des capacités de manipulation incertaines. L'un des défis auxquels sont confrontés les classificateurs appris après leur déploiement est que les instances entrantes peuvent adapter la présentation de leurs caractéristiques ou même tromper intentionnellement le classificateur en modifiant la représentation d'une manière imperceptible pour l'homme. Les domaines de la classification stratégique et de l'apprentissage robuste à l'adversité traitent de ces situations. On suppose souvent que l'apprenant connaît les capacités de manipulation ou les régions où les changements sont imperceptibles. En réalité, les connaissances préalables sur ces capacités sont plus limitées.
Basé sur un travail conjoint avec Shai Ben-David, membre de la faculté Vector et titulaire de la chaire CIFAR AI au Canada, Ruth Urner, membre affiliée de la faculté Vector, et Vinayak Pathak, l'exposé a introduit la notion d'apprentissage PAC robuste du point de vue accusatoire et robuste du point de vue stratégique pour une classe de structures de manipulation candidates plausibles et a étudié quelle connaissance préalable des candidats permettait d'obtenir des garanties en matière d'apprentissage. Dans le cadre contradictoire, l'abstention ainsi que l'accès supplémentaire à l'oracle peuvent donner des garanties d'apprenabilité. L'apprentissage des capacités de manipulation à partir des changements de distribution peut rendre possible un apprentissage stratégiquement robuste.
La quantification de l'incertitude (QI) dans les réseaux neuronaux profonds (RNP) joue un rôle crucial dans les applications critiques pour la sécurité, telles que le diagnostic médical et la robotique. Une simple prédiction ponctuelle d'un réseau neuronal profond, sans indiquer le degré de confiance du modèle dans sa prédiction, peut être trompeuse. Par exemple, un classificateur DNN d'une image de tomodensitométrie pulmonaire peut prédire qu'un patient est en bonne santé parmi six résultats possibles ou plus, dont la santé, la fibrose pulmonaire, le cancer du poumon, la pneumonie, la BPCO et l'asthme. Dans ce cas, un médecin qui envisage de recourir à l'imagerie diagnostique assistée par l'IA peut demander des tests diagnostiques supplémentaires si le modèle peut indiquer que sa prédiction de la bonne santé du patient s'accompagne d'une grande incertitude (seulement 55 % de confiance) par rapport à un cas où le modèle est confiant à 80 %. Dans son exposé, Reza Samavi, affilié à la faculté Vecteur et professeur associé à la Toronto Metropolitan University, a présenté une méthode de prédiction conforme pour les modèles DNN, dans laquelle une prédiction ponctuelle est remplacée par un ensemble de prédictions pour lesquelles le modèle est très confiant (disons 90 %) dans le fait que le résultat réel se trouve dans l'ensemble.
Au lieu de prédire simplement que le patient est en bonne santé avec un faible niveau de confiance, le modèle peut prédire avec un niveau de confiance élevé que le résultat est l'un des suivants : en bonne santé, pneumonie ou fibrose pulmonaire. Cela suggère au médecin qu'un examen plus approfondi peut être justifié. L'ensemble traduit ainsi la notion heuristique d'incertitude en une notion rigoureuse qui présente plusieurs avantages par rapport aux méthodes de quantification de l'incertitude dépendant de la distribution, telles que MC-Dropout. Cette approche est exempte de distribution, peut fonctionner avec n'importe quel modèle de boîte noire et ne pose pratiquement aucune hypothèse. En particulier, les recherches de Samavi ont montré qu'avec un surcoût négligeable, il est possible d'atteindre la taille optimale de l'ensemble de prédiction. En utilisant les données déjà disponibles dans la couche logit d'un réseau DNN, le classificateur peut être calibré après le déploiement, en particulier lorsque le modèle est déployé dans un environnement hors distribution, comme lorsque le modèle d'imagerie diagnostique est formé sur une population nord-américaine, mais est déployé ailleurs. La quantification de l'incertitude permet de construire des modèles moins biaisés et plus justes.
Hassan Ashtiani, affilié à la faculté Vector et professeur associé à l'université McMaster, a parlé de la résolution du problème classique de la sélection d'hypothèses sous la contrainte de la confidentialité différentielle locale (LDP). Le LDP est le modèle de confidentialité préféré dans plusieurs applications sensibles utilisées par des entreprises telles qu'Apple, Google et Microsoft. Contrairement au modèle central de protection de la vie privée, dans le modèle LDP, les individus n'ont pas besoin de faire confiance à une entité centrale pour collecter et traiter les données privées. Au lieu de cela, la protection de la vie privée est assurée localement, par exemple sur les appareils personnels des individus. Le LDP est également adapté à des contextes tels que l'apprentissage fédéré, où l'apprentissage est effectué de manière distribuée. M. Ashtiani a également parlé de ses récents travaux avec son collègue affilié à la faculté Vector, Shahab Asoodeh, qui est également professeur adjoint à l'Université McMaster, et avec Alireza Pour sur le problème fondamental de la sélection d'hypothèses dans le modèle LDP. Ils ont notamment découvert que tout algorithme optimal en termes d'échantillons pour ce problème nécessiterait plusieurs tours d'interactions.
Sasho Nikolov, affilié à la faculté Vector, présente l'atelier.
L'estimation statistique privée vise à calculer des estimations précises sur une population sans révéler d'informations privées sur un individu. Un problème fondamental dans ce domaine est l'estimation de la moyenne, dans laquelle les données de chaque individu sont codées sous la forme d'un vecteur à haute dimension (liste de nombres) et l'objectif est d'estimer la moyenne des vecteurs. Une méthode de base pour l'estimation privée de la moyenne consiste à calculer la moyenne, puis à garantir la confidentialité en ajoutant à chaque coordonnée un bruit soigneusement corrélé tiré de la distribution normale. Cette méthode présente l'avantage d'être impartiale : le bruit a autant de chances d'augmenter ou de diminuer la vraie moyenne dans n'importe quelle direction. Dans son exposé, Aleksandar Nikolov, affilié à la faculté Vecteur et professeur associé à l'université de Toronto, a montré comment optimiser les corrélations entre les bruits pour minimiser l'erreur et prouver que, avec ces corrélations optimales, l'ajout de bruits normalement distribués est la méthode d'estimation de la moyenne privée sans biais la plus précise.
Les inquiétudes concernant la fuite des données de l'utilisateur final ont entravé l'utilisation de modèles sophistiqués déployés dans le nuage, comme l'apprentissage automatique en tant que service. Une méthode pour atténuer cette fuite consiste à ajouter un bruit local différentiellement privé aux requêtes sensibles avant de les envoyer dans le nuage. Mais cela a pour effet secondaire de dégrader l'utilité du modèle en nuage puisqu'il génère des résultats potentiellement erronés sur les requêtes bruitées. David Lie, affilié à la faculté Vector et professeur à l'université de Toronto, a démontré qu 'au lieu d'accepter cette perte d'utilité, il est possible de déployer un modèle fiable sur un appareil appartenant à l'utilisateur et de l'entraîner à l'aide des connaissances agrégées disponibles dans les étiquettes bruyantes et potentiellement incorrectes renvoyées par les requêtes bruyantes au modèle en nuage afin de récupérer les étiquettes correctes.
Des étudiants diplômés présentent leurs recherches lors d'une session de posters.
Le cadre standard de la ML considère un ensemble de données centralisé traité dans un système étroitement intégré. Cependant, dans le monde réel, les données sont souvent réparties entre plusieurs parties. Le partage direct des données peut être interdit pour des raisons de protection de la vie privée. C'est là que l'apprentissage fédéré (AF) entre en jeu. L'apprentissage fédéré permet de former des modèles globaux en collaboration tout en conservant les données sur des sites locaux. Seules les informations relatives au modèle local sont partagées.
Dans un FL classique, un serveur coordonne l'apprentissage du modèle entre les sites locaux - appelés clients - et leur demande de partager les paramètres/poids du modèle avec le serveur pour l'agrégation du modèle. Avec l'algorithme FedAvg, cette agrégation est réalisée en calculant la moyenne des poids des modèles. Toutefois, pour les FL traditionnelles, le fait de s'appuyer sur un serveur centralisé peut accroître la vulnérabilité et la confiance. En outre, les architectures des modèles locaux peuvent varier en raison des différentes ressources informatiques locales, et les données des différents clients peuvent être décalées. Compte tenu de ces paramètres pratiques, Xiaoxiao Li, membre de la faculté Vector et titulaire de la chaire CIFAR AI du Canada, qui est également professeur adjoint à l'Université de Colombie-Britannique, a proposé une nouvelle technique de FL décentralisée en introduisant des ancres synthétiques. Baptisée DeSA, cette technique assouplit les restrictions et les hypothèses afin d'améliorer le transfert de connaissances en matière de FL. Plus précisément, Li a proposé de partager les données synthétiques des sites locaux avec des protections différentielles de la vie privée. Appelées ancres locales, elles capturent les distributions de données locales et seront partagées entre les clients avant la formation au FL. Ensuite, les clients regrouperont les ancres locales partagées en ancres globales. Pendant la formation FL, les clients utilisent à la fois les données locales et l'ancrage global pour mettre à jour les modèles locaux en fonction de l'objectif de formation. En ce qui concerne les informations à partager, les clients doivent simplement échanger les logits de sortie des modèles, et l'échange d'informations peut être réalisé par distillation des connaissances. En outre, les ancres globales servent de régularisateur pour harmoniser les caractéristiques apprises par les différents clients. Le pipeline global, illustré à la figure 1, permet à différents clients disposant de données et de modèles hétérogènes de collaborer efficacement dans le respect de la vie privée.
Figure 1 : L'ancre globale partagée facilite l'échange sécurisé d'informations entre les collaborateurs (Source : Diapositives de la présentation DeSA ICML, Huang, C. Y., Srinivas, K., Zhang, X., & Li, X.*, Overcoming Data and Model Heterogeneities in Decentralized Federated Learning via Synthetic Anchors (Surmonter les hétérogénéités des données et des modèles dans l'apprentissage fédéré décentralisé par le biais d'ancres synthétiques). In 2024 International Conference on Machine Learning)
Masoumeh Shafieinejad, chercheur en apprentissage automatique appliqué au sein de l'équipe d'ingénierie de l'IA de Vector, a parlé d'un portefeuille de projets axés sur les technologies d'amélioration de la protection de la vie privée (PET), travail réalisé en collaboration avec les parties prenantes de Vector, notamment Xi He, membre de la faculté de Vector et titulaire de la chaire d'IA du CIFAR au Canada, Amii et RBC.
Les travaux de Mme Shafieinejad sur la génération de données synthétiques pour les données tabulaires multi-tables ont été accueillis favorablement par l'industrie et visent à promouvoir la protection de la vie privée dès la conception dans les secteurs de la finance et de la santé. Elle fait également progresser la collaboration sécurisée et préservant la vie privée entre diverses organisations, dans le contexte de la génération de données tabulaires synthétiques multipartites et de l'apprentissage fédéré pour les données de santé.
En tant que chercheur appliqué, il est tout aussi important pour Shafieinejad d'étudier les facteurs qui facilitent ou entravent l'adoption des technologies de protection de la vie privée par l'industrie. Cette étude revêt une importance particulière compte tenu du projet de loi (C27) du gouvernement canadien visant à renforcer la protection de la vie privée et à lutter contre les risques liés à l'IA. Mme Shafieinejad a souligné la nécessité de traduire les résultats des évaluations techniques de la protection de la vie privée en évaluations significatives des risques pour l'industrie et le gouvernement. Elle a conclu son intervention en appelant à la poursuite des discussions et à la collaboration sur le sujet.
Masoumeh Shafieinejad, scientifique chez Vector Applied Machine Learning - Privacy Enhancing Technologies, présente l'atelier.
Des études pluridisciplinaires et des discussions multipartites sont essentielles pour relever les défis complexes générés par les progrès de l'IA. Leur objectif : le développement de solutions pratiques et fiables qui garantissent la sécurité tout en favorisant un environnement agile et en permettant le déploiement sécurisé d'applications d'IA innovantes tout en préservant la confidentialité des données.
Malgré les progrès réalisés grâce aux avancées de la recherche mentionnées ci-dessus, des questions importantes demeurent dans le domaine de la sécurité de l'apprentissage automatique et de la protection de la vie privée. Par exemple, les progrès futurs nous permettront-ils de former des modèles d'apprentissage automatique à l'aide de données synthétiques ? En outre, comment pouvons-nous intégrer plus efficacement les garanties de protection de la vie privée et de confidentialité dans la conception de la prochaine génération de modèles d'apprentissage profond ?
Voir les présentations de la première édition de l'atelier sur la sécurité et la confidentialité de l'apprentissage par machine vectorielle.
Gautam Kamath, membre de la faculté Vector et titulaire de la chaire d'IA du CIFAR au Canada, , analyse les derniers développements en matière de robustesse et de protection de la vie privée.