Quand l'IA intelligente devient trop intelligente : Principales conclusions de l'atelier 2025 de Vector sur la sécurité et la protection de la vie privée dans le domaine de l'intelligence artificielle
14 novembre 2025
14 novembre 2025
L'atelier 2025 sur la sécurité et la confidentialité de l'apprentissage automatique de l'Institut Vecteur a révélé des percées cruciales en matière de sécurité de l'IA et des vulnérabilités préoccupantes dans les méthodes actuelles de sécurité de l'apprentissage automatique. Cette analyse complète couvre les dernières recherches sur la robustesse des adversaires, les échecs du désapprentissage automatique, les risques liés à la confidentialité des données synthétiques et les capacités de tromperie de l'IA, menées par les principaux chercheurs du premier institut d'IA du Canada.
Alors que les systèmes d'intelligence artificielle deviennent de plus en plus sophistiqués et omniprésents, une question fondamentale se pose : Comment s'assurer que ces puissants systèmes restent sûrs, privés et dignes de confiance ? Ce défi a été au cœur du troisième atelier annuel de Vector sur la sécurité et la confidentialité de l'apprentissage automatique, au cours duquel des chercheurs de premier plan ont dévoilé des solutions prometteuses et des réalités inquiétantes sur l'état actuel de la sécurité de l'intelligence artificielle.
La réunion du 8 juillet 2025 a rassemblé des chercheurs d'institutions de tout l'Ontario pour aborder des questions critiques couvrant l'ensemble du spectre de la sécurité et de la confidentialité des ML. Des percées théoriques dans le domaine de la robustesse des adversaires aux échecs pratiques des techniques de préservation de la vie privée, l'atelier a révélé un domaine qui s'efforce de résoudre les défis fondamentaux avant qu'ils ne deviennent des vulnérabilités critiques.
Les membres du corps professoral et les affiliés de Vector étant à la tête d'une grande partie de cette recherche de pointe, l'atelier a mis en évidence le rôle central de l'institut dans l'avancement de notre compréhension des défis liés à la sécurité et à la vie privée de l'IA, alors que ces systèmes occupent une place de plus en plus centrale dans la société.
La première avancée majeure de la journée a été réalisée par Ruth Urnermembre de la faculté Vecteur et professeur associé à l'Université York, dont les travaux sur l'apprentissage contradictoire tolérant offrent une solution pragmatique à un problème de longue date. La robustesse contradictoire traditionnelle, qui consiste à rendre les modèles d'intelligence artificielle résistants aux intrants malveillants, s'est avérée impossible à calculer. L'équipe de M. Urner a découvert qu'en autorisant une certaine souplesse contrôlée dans les exigences de robustesse, il est possible d'obtenir des apprenants "presque corrects" dont la complexité est linéaire plutôt qu'exponentielle.
"Les détails de la modélisation peuvent avoir des effets significatifs sur les conclusions", a souligné M. Urner. "Parfois, le fait de modifier légèrement les exigences formelles nous permet de dériver des limites pour des méthodes d'apprentissage beaucoup plus naturelles.
Ce travail théorique comble le fossé entre la recherche universitaire et le déploiement pratique de l'IA, où la robustesse parfaite peut être impossible mais où le compromis contrôlé devient la voie à suivre.

La révélation la plus décevante de l'atelier a peut-être été faite par Gautam Kamathmembre de la faculté Vector, titulaire de la chaire d'IA du CIFAR au Canada et professeur adjoint à l'université de Waterloo, qui a fait ce qu'il a appelé une "prise de conscience" : les méthodes actuelles de désapprentissage des machines ne fonctionnent pas vraiment.
Le désapprentissage automatique - la capacité de supprimer des données spécifiques des modèles formés - a été présenté comme une solution pour le respect de la vie privée dans le cadre de réglementations telles que le GDPR et la proposition de CPPA du Canada. Mais les recherches de M. Kamath ont révélé que ces méthodes échouent lorsqu'elles sont testées contre des attaques par empoisonnement de données.
"Le désapprentissage n'est pas en mesure d'éliminer l'influence des données empoisonnées sur un modèle entraîné", a démontré M. Kamath à l'aide d'expériences montrant que les modèles supposés "désappris" restaient vulnérables aux mêmes attaques que si les données n'avaient jamais été supprimées.
Ses conclusions ont des implications majeures pour les entreprises qui prétendent respecter la vie privée grâce à l'apprentissage automatique : elles pourraient offrir une fausse sécurité.
Xi Hemembre de la faculté Vector, titulaire de la chaire canadienne CIFAR sur l'IA et professeur adjoint à l'université de Waterloo, a mis en évidence les opportunités considérables et les dangers cachés de la génération de données synthétiques. Alors que les institutions financières considèrent de plus en plus les données synthétiques comme "une approche potentielle pour traiter les questions liées à la protection de la vie privée, à l'équité et à l'explicabilité", des recherches récentes révèlent des fuites dans la protection de la vie privée.
Le propre défi de Vector en matière de données privées a révélé que les modèles de diffusion - bien qu'offrant une excellente utilité - présentaient des taux de réussite allant jusqu'à 46 % dans les attaques par inférence d'appartenance, ce qui signifie que les attaquants pouvaient déterminer si les données d'individus spécifiques avaient été utilisées dans l'entraînement.
"Les données synthétiques ne garantissent pas à elles seules le respect de la vie privée", a-t-il averti, soulignant la nécessité de disposer de garanties différentielles en matière de respect de la vie privée plutôt que de s'appuyer uniquement sur la génération de données synthétiques.

Vector Faculty Member, Canada CIFAR AI Chair, et professeur associé à l'Université de Toronto, David DuvenaudLa présentation de David Duvenaud sur les évaluations de sabotage aborde une question cruciale pour le déploiement de l'IA : comment s'assurer que les modèles agissent de manière authentique et non stratégique lors des évaluations ? Son équipe a vérifié si les modèles pouvaient secrètement orienter les humains vers de mauvaises décisions tout en paraissant utiles, installer des portes dérobées ou saper les systèmes de surveillance.
Les résultats ont mis en évidence des défis importants pour l'évaluation de l'IA. Les modèles ont réussi à influencer les décisions humaines dans environ 50 % des cas, mais ils sont également apparus plus suspects aux évaluateurs, ce qui révèle l'importance cruciale de l'étalonnage des seuils de détection.
"Nous avons en quelque sorte réalisé que toute l'habileté de l'intrigue consiste à bien calibrer les actions qui paraîtront suspectes", a observé M. Duvenaud, soulignant un défi fondamental dans l'alignement de l'IA à mesure que les systèmes d'IA deviennent de plus en plus performants.

Au-delà de ces grandes lignes, l'atelier a mis en évidence l'étendue remarquable de la recherche actuelle sur la sécurité des ML par le biais de conférences éclair et de présentations spécialisées, avec des contributions significatives de la communauté des chercheurs de Vector :
Clemens Possnig, de l'université de Waterloo, a présenté un cadre théorique des jeux montrant comment l'IA permet une coordination sans précédent des cyberattaques et de la défense. "Ce qui a changé, c'est que nous avons désormais facilement accès à des outils d'apprentissage automatique très sophistiqués qui apportent adaptabilité et décentralisation", a-t-il expliqué, notant que les agents de l'IA peuvent se coordonner sans surcharge de communication.
Alireza Arbabi, étudiant diplômé en vectorologie à l'université de Waterloo, a présenté une nouvelle approche de l'évaluation des biais du LLM en utilisant la détection d'anomalies. Plutôt que d'évaluer les modèles de manière isolée, son cadre compare les réponses de plusieurs modèles afin d'identifier les biais relatifs. Les résultats ont révélé des schémas intéressants - DeepSeek a montré des déviations notables lorsqu'il a été interrogé sur des sujets sensibles pour la Chine, tandis que le Llama de Meta a montré un biais sur les questions liées à Meta.
Yiwei LuYiwei Lu, nouveau professeur adjoint et affilié à la faculté Vecteur de l'Université d'Ottawa, a démontré des vulnérabilités critiques dans les méthodes de perturbation adverses pour la protection des données, en montrant comment des outils populaires comme Fawkes et Glaze peuvent être défaits par la "purification du pont" en utilisant des modèles de pont de diffusion de débruitage. L'attaque de son équipe peut restaurer les méthodes de protection qui ont réduit la précision du modèle à des niveaux proches du hasard (9-23%) pour atteindre une précision de 93-94% en utilisant seulement 500-4 000 images non protégées qui ont été divulguées.
Hanna Foerster, stagiaire en recherche vectorielle à l'université de Cambridge, a présenté "LightShed", un autoencodeur qui s'entraîne sur des images propres et empoisonnées pour détecter et supprimer les perturbations protectrices d'outils tels que Nightshade et Glaze. L'autoencodeur apprend à produire des sorties différentes selon que les images sont protégées ou propres, ce qui permet de détecter et de supprimer les masques de protection. "Nous ne voulons pas dire que les outils de génération d'images gagnent et que les artistes perdent", a précisé M. Foerster, "mais nous voulons dire aux artistes de ne pas se fier aveuglément à ces outils parce qu'ils sont toujours vulnérables et que nous devons encore créer de meilleurs outils".


Shubhankar Mohapatra, étudiant diplômé en vectorologie à l'université de Waterloo, a mis en évidence un oubli critique dans la mise en œuvre de la confidentialité différentielle - la plupart des recherches se concentrent uniquement sur l'apprentissage du modèle, alors que les budgets de confidentialité doivent en fait couvrir l'exploration des données, le nettoyage, le réglage des hyperparamètres et le déploiement. "Toutes les composantes d'un système de confidentialité différentielle doivent être réalisées dans le cadre d'une allocation de confidentialité fixe", a-t-il souligné.
Rushabh Solanki, chercheur affilié à la faculté de l'université de Waterloo, a étudié la manière dont les groupes peuvent se coordonner pour influencer les algorithmes ML par le biais de modifications stratégiques des données - ce qu'il appelle "l'action collective algorithmique". Ses recherches ont révélé que le renforcement des protections de la vie privée entrave en fait l'efficacité de l'action collective, créant ainsi des compromis complexes pour la politique de protection de la vie privée.
Les sessions de l'après-midi ont permis d'approfondir des solutions techniques sophistiquées. Olive Franzese-McLaughlin, chercheur postdoctoral distingué chez Vector, a fait la démonstration d'un audit de ML cryptographiquement sécurisé en utilisant des schémas d'engagement et des preuves à connaissance nulle, permettant des audits sans fuite d'informations sensibles. David Emerson, spécialiste de l'apprentissage automatique appliqué chez Vector, a présenté les contraintes adaptatives de l'espace de latence pour l'apprentissage fédéré personnalisé, améliorant les méthodes de pointe telles que Ditto en incorporant des contraintes tenant compte de la distribution.
D'autres exposés éclairs ont porté sur des sujets aussi variés que la convergence exponentielle dans la méthode Monte Carlo de Langevin projetée(Alireza Daeijavad, McMaster University) ou l'échantillonnage privé localement optimal(Hrad Ghoukasian, McMaster University), mettant ainsi en évidence la profondeur théorique du domaine.
Le message principal de l'atelier était clair : à mesure que les capacités de l'IA progressent rapidement, notre capacité à garantir que ces systèmes restent sûrs, privés et conformes aux valeurs humaines devient de plus en plus critique.
Les principales priorités qui se dégagent de la recherche sont les suivantes
La voie à suivre nécessite une collaboration continue entre le monde universitaire et l'industrie, des méthodes d'évaluation rigoureuses et, ce qui est peut-être le plus important, de l'humilité face aux défis qui nous attendent alors que nous construisons des systèmes d'IA de plus en plus puissants.
Comme l'ont démontré ces chercheurs, la résolution des problèmes de sécurité et de protection de la vie privée liés à l'intelligence artificielle nécessite à la fois des percées théoriques et des solutions pratiques. L'atelier a mis en évidence le fait que, malgré les progrès significatifs réalisés, une collaboration continue entre le monde universitaire et l'industrie sera essentielle à mesure que les systèmes d'IA deviendront de plus en plus répandus dans la société.
Notre communauté de recherche renommée réalise des percées dans le domaine de la science et de l'application de l'IA.