Comment le chercheur vectoriel Xi utilise la confidentialité différentielle pour aider à garder les données privées

2 février 2024

2024 Insights : IA fiable

Par Michael Barclay

« Je suis toujours fasciné par la façon dont les technologies peuvent améliorer nos vies », déclare Xi He, membre du corps professoral de Vector. C’est le centre de ses études depuis qu’elle est étudiante aux cycles supérieurs à l’Université Duke en Caroline du Nord. « L’IA révolutionne nos vies à bien des égards. Mais la vie privée est un aspect très important que nous devons aborder : si mes données personnelles ont été utilisées correctement dans ce processus. C’est un problème très important pour moi. »

Il est facile d’être cynique à propos de la vie privée numérique : chaque fois que nous signons aveuglément une page de termes et ententes, qui sait où nos données personnelles finiront? Qu’il s’agisse des médias sociaux ou d’un programme de récompenses pour consommateurs, il y a de nombreuses raisons d’être méfiant à l’ère du « capitalisme de surveillance », pour reprendre un terme de l’écrivaine à succès Shoshana Zuboff. « Si vos informations personnelles sont entre de mauvaises mains, » dit Xi, « vous pourriez être refusé dans certaines opportunités, comme les demandes d’hypothèque, l’assurance, etc. Nous voulons vraiment que les bonnes données soient entre de bonnes mains. » 

« Souvent, je signe 'oui', » poursuit Xi, faisant référence à ces ententes de confidentialité que peu de gens prennent le temps de lire, « parce que j’ai besoin d’utiliser leur service. On dirait qu’il n’y a pas le choix, parce que c’est soit dedans, soit dehors, non? Mais nous pouvons faire mieux pour que, même si mes données sont incluses, ils les utilisent correctement – afin que mes informations sensibles ne soient pas divulguées à d’autres parties qui ne sont pas censées consulter mes données. » 

Une façon de limiter les risques que cela se produise est une technologie d’amélioration de la vie privée appelée confidentialité différentielle.

Vie privée vs utilité

En analysant des ensembles de données dans un système d’IA, il y a toujours un compromis entre la vie privée (vos informations) et l’utilité (ce que l’analyste veut découvrir). Les modèles précédents pour les analystes de données travaillaient sur une utilité maximale, sous réserve des exigences de confidentialité. Mais la confidentialité différentielée, un cadre de préservation de la vie privée, soutient un problème clair d’optimisation entre la vie privée et l’utilité.  Un pare-feu est installé entre l’analyste de données et les données privées, ce qui introduit un certain « bruit » dans les réponses.  

Prenons une carte de récompenses d’épicerie comme exemple. « Si je veux connaître le montant moyen dépensé par les clients dans cette épicerie, je dois m’assurer que quiconque voit la sortie ne pourra pas savoir si vos données sont utilisées dans ce calcul ou non », explique Xi. « Prenons, par exemple, le produit le plus cher qu’ils vendent à l’épicerie. Ma question est : combien de personnes achètent ce truc? Avec la confidentialité différentielle, nous appliquons un algorithme aléatoire pour traiter la réponse. 

« Si vous êtes la seule personne à l’acheter, la réponse est 'une' – mais [un algorithme différentiel de confidentialité] ajoute un peu de bruit à la réponse. Quand les gens regardent cette réponse bruyante, ils ne savent pas si ce chiffre de « un » vient vraiment de vous ou du bruit. Ça donne un peu d’aléatoire. Mais peu importe, que vous soyez vraiment dans la base de données ou non – ou si vos données ont été utilisées dans le processus de calcul – le chiffre final est assez petit. Il n’est pas nécessaire que ce soit exactement 'un’unique', mais ils savent que c’est un petit nombre : peu de gens achètent ce produit. »

Plus de vie privée — mais moins de précision. Xi est d’accord avec ça. Dans les algorithmes sur lesquels elle travaille, « Je veux que la réponse ait une erreur de plus ou moins 10. Dans cette fourchette, il y a un certain niveau de confiance. Notre système tentera de trouver le meilleur algorithme de confidentialité différentielle, avec un coût minimal en matière de confidentialité, qui peut atteindre cet objectif de précision. C’est différent de la conception standard d’un algorithme différentiellement privé, qui fonctionnait sur une utilité maximale, sous réserve des exigences de confidentialité. »

Généralisation des systèmes de confidentialité différentielle

Xi, titulaire de la chaire CIFAR au Canada en IA et professeure à la David R. Cheriton School of Computer Science de l’Université de Waterloo, a coécrit son premier article sur la confidentialité différentielle en 2019. À ce moment-là, les grandes entreprises technologiques appliquaient déjà ce concept dans certaines applications, « mais cela n’a jamais dépassé cela », dit-elle. « Ce n’était pratiquement pas évolutif à ce moment-là. Nous voulons vraiment concevoir des systèmes ou des cadres plus généraux pour que les gens puissent les utiliser : des systèmes de bases de données que vous pouvez simplement brancher à votre système et exécuter n’importe quoi sur vos données sensibles. Vous voulez que le système fournisse une réponse fiable à l’utilisateur. » À cette fin, elle et son équipe ont publié une série d’articles présentant des systèmes capables d’offrir un support linguistique de haut niveau pour la spécification des exigences de confidentialité pour le propriétaire des données (PrivateSQL, DProvDB) et des exigences de précision pour les analystes de données (APEx, CacheDP), tout en optimisant les compromis entre la confidentialité et l’utilité au nom des utilisateurs du système.

Ce n’est pas parce qu’une entreprise possède vos données privées qu’elle les partage avec des tiers. « Vos données peuvent y rester sans aucune fuite de vie privée, c’est tout à fait correct », dit Xi. « Mais nous l’utilisons pour des applications plus intéressantes et axées sur les données, afin de s’assurer qu’il n’y a pas de comportements malveillants, et pour donner aux gens une meilleure idée de comment améliorer le marketing – sans connaître le comportement exact d’une personne en particulier. »

La confidentialité différente n’est pas encore une exigence de la réglementation légale. Il est lentement reconnu par les agences gouvernementales, y compris le recensement américain, qui l’ont utilisé lors de la publication de leurs données de 2020. Mais ce n’est pas un terme grand public, et c’est sujet à la confusion. « Les gens ne comprennent pas vraiment ce que garantit une vie privée différenciée », dit Xi. Par exemple, il ne donne pas de réponse précise à une analyse en raison de son aléatoire pour protéger la vie privée, mais il est possible de quantifier l’ampleur de l’erreur. « Il est très important d’expliquer la fiabilité de ces algorithmes. »

La vie privée dans les soins de santé

Pour dire l’évidence, l’IA avance rapidement et il y a un délai pour intégrer des protections PET comme la confidentialité différentielle. « Je ne sais pas combien de temps il me reste », dit Xi. « Je sais juste que je fais de mon mieux. » Son travail chez Vector la connecte aux membres des équipes FL4health et d’ingénierie IA de Vector, avec qui elle développe un cadre d’apprentissage fédéré préservant la confidentialité pour les données en santé. 

« Le professeur He a été un leader et collaborateur exceptionnel dans le développement d’algorithmes d’apprentissage fédéré efficaces avec de fortes garanties de confidentialité, qui sont d’une importance capitale lorsqu’on travaille avec des données cliniques réelles », explique David Emerson, scientifique en apprentissage automatique appliqué chez Vector. « Nous avons hâte de continuer à collaborer avec son équipe et de repousser les limites des méthodes d’apprentissage automatique en santé. »

Xi a d’abord été attirée par le sujet non pas par urgence, mais pour des raisons intellectuelles relativement banales : ce n’est pas comme si sa carte de crédit avait été piratée ou que quelqu’un avait cambriolé son téléphone. « Je pense juste que c’est un problème très important, et je peux utiliser certaines de mes connaissances et compétences pour améliorer cet aspect. Je ne suis pas seul. Il y a des gens formidables qui travaillent ensemble sur ce problème. »

Cliquez ici pour en savoir plus sur le travail de Vector en matière de protection des données.

À lire aussi :

2026
Réflexions
Recherche
Recherche 2026

La nouvelle cartographie de l’invisible

Logo vectoriel
2025
Réflexions

Une nouvelle étude révèle l’impact économique de 100 milliards de dollars de l’IA à travers le Canada, avec l’Ontario en tête

2025
Réflexions
Partenariat
Histoires de réussite

Pourquoi le partenariat du leader bancaire en IA CIBC avec le Vector Institute continue de croître