Comment le chercheur Xi He, spécialiste des vecteurs, utilise la confidentialité différentielle pour préserver la confidentialité des données

2 février 2024

Perspectives Une IA digne de confiance

Par Michael Barclay

"Je suis toujours fascinée par la façon dont les technologies peuvent améliorer notre vie", déclare Xi He, membre de la faculté Vector. C'est l'objet de ses études depuis qu'elle est étudiante de troisième cycle à l'université Duke, en Caroline du Nord. "L'IA révolutionne nos vies à bien des égards. Mais la protection de la vie privée est un aspect très important que nous devons aborder : il s'agit de savoir si mes données personnelles ont été utilisées correctement dans le cadre de ce processus. C'est un problème très important pour moi."

Il est facile d'être cynique en matière de protection de la vie privée dans le domaine numérique : chaque fois que nous signons aveuglément une page de conditions et d'accords, qui sait où nos données personnelles finiront par aboutir ? Qu'il s'agisse des médias sociaux ou d'un programme de récompenses pour les consommateurs, il existe une multitude de raisons de se méfier à l'ère du "capitalisme de surveillance", pour reprendre l'expression de l'auteur de best-sellers Shoshana Zuboff. "Si vos informations personnelles se retrouvent entre de mauvaises mains, vous risquez de vous voir refuser certaines opportunités, comme les demandes de prêts hypothécaires, les assurances, etc. Nous voulons vraiment que les bonnes données soient entre les bonnes mains". 

Souvent, je signe "oui"", poursuit Xi, en faisant référence à ces accords de confidentialité que peu de gens prennent le temps de lire, "parce que j'ai besoin d'utiliser leur service". Il semble qu'il n'y ait pas de choix, car c'est soit dedans, soit dehors, n'est-ce pas ? Mais nous pouvons faire mieux pour que, même si mes données sont acceptées, elles soient utilisées correctement - pour que mes informations sensibles ne soient pas divulguées à d'autres parties qui ne sont pas censées les consulter". 

L'un des moyens de limiter ces risques est une technologie d'amélioration de la protection de la vie privée appelée "protection différentielle de la vie privée".

Vie privée ou utilité

Lors de l'analyse d'ensembles de données dans un système d'IA, il faut toujours trouver un compromis entre la protection de la vie privée (vos informations) et l'utilité (ce que l'analyste veut découvrir). Les modèles précédents pour les analystes de données travaillaient sur l'utilité maximale, sous réserve des exigences en matière de protection de la vie privée. Mais la confidentialité différentielle, un cadre qui préserve la vie privée, soutient un problème d'optimisation clair entre la vie privée et l'utilité. Un pare-feu est mis en place entre l'analyste de données et les données privées, ce qui introduit un certain "bruit" dans les réponses.  

Prenons l'exemple de la carte de fidélité d'un épicier. "Si je veux connaître le montant moyen que les clients dépensent dans cette épicerie, je dois m'assurer que quiconque voit le résultat ne pourra pas savoir si vos données sont utilisées dans ce calcul ou non", explique M. Xi. "Prenons, par exemple, le produit le plus cher vendu dans l'épicerie. Ma question est la suivante : combien de personnes achètent ce produit ? Avec la confidentialité différentielle, nous appliquons un algorithme aléatoire pour traiter la réponse. 

Si vous êtes la seule personne à l'acheter, la réponse est "un", mais [un algorithme de confidentialité différentielle] ajoute du bruit à la réponse. Lorsque les gens regardent cette réponse bruyante, ils ne savent pas si le chiffre 'un' vient vraiment de vous ou du bruit. Cela confère un certain caractère aléatoire à la réponse. Mais que vous soyez réellement dans la base de données ou non - ou que vos données aient été utilisées dans le processus de calcul - le nombre final est assez faible. Il n'est pas nécessaire qu'il soit exactement "un", mais ils savent que c'est un petit nombre : il n'y a pas beaucoup de gens qui achètent ce produit.

Plus de vie privée, mais moins de précision. Xi n'y voit pas d'inconvénient. Dans les algorithmes sur lesquels elle travaille, "je veux que la réponse ait une erreur de plus ou moins 10. À l'intérieur de cette fourchette se trouve un certain niveau de confiance. Notre système essaiera de trouver le meilleur algorithme de confidentialité différentielle, avec un coût de confidentialité minimal, qui peut atteindre cet objectif de précision. Cela diffère de la conception standard d'un algorithme à confidentialité différentielle, qui travaille sur l'utilité maximale, sous réserve des exigences en matière de confidentialité".

Généralisation des systèmes différentiels de protection de la vie privée

Xi, titulaire d'une chaire d'IA CIFAR au Canada et professeur à la David R. Cheriton School of Computer Science de l'Université de Waterloo, a coécrit son premier article sur la protection différentielle de la vie privée en 2019. À ce moment-là, les grandes entreprises technologiques appliquaient déjà le concept dans certaines applications, "mais cela ne s'est jamais étendu à plus que cela", dit-elle. "En fait, il n'était pas extensible à ce moment-là. Nous voulons vraiment concevoir des systèmes ou des cadres plus généraux pour que les gens puissent les utiliser : des systèmes de base de données que vous pouvez simplement brancher dans votre système et exécuter n'importe quoi sur vos données sensibles. Nous voulons que le système fournisse une réponse fiable à l'utilisateur". À cette fin, elle et son équipe ont publié une série d'articles présentant des systèmes capables de fournir un support linguistique de haut niveau pour la spécification des exigences de confidentialité pour le propriétaire des données ( PrivateSQL, DProvDB) et des exigences de précision pour les analystes de données ( APEx, CacheDP) et d'optimiser les compromis entre confidentialité et utilité pour le compte des utilisateurs du système.

Le fait qu'une entreprise possède vos données privées ne signifie pas nécessairement qu'elle les partage avec des tiers. "Vos données peuvent être conservées sans qu'il y ait de fuite de données personnelles, c'est tout à fait normal", explique M. Xi. "Mais nous les utilisons pour des applications plus intéressantes, axées sur les données, pour nous assurer qu'il n'y a pas de comportement malveillant et pour donner aux gens une meilleure idée de la manière dont le marketing peut être amélioré - sans connaître le comportement exact d'une personne en particulier.

La protection différenciée de la vie privée n'est pas encore une exigence de la réglementation légale. Elle est peu à peu reconnue par les agences gouvernementales, notamment le recensement américain, qui l'a utilisée lors de la publication de ses données pour 2020. Mais le terme est loin d'être généralisé et prête à confusion. "Les gens ne comprennent pas bien ce que la protection différentielle des données garantit réellement", explique M. Xi. Par exemple, elle ne donne pas de réponse précise à une analyse en raison de son caractère aléatoire pour la protection de la vie privée, mais il est possible de quantifier l'ampleur de l'erreur. "Il est très important d'expliquer la fiabilité de ces algorithmes.

Vie privée dans les soins de santé

Il est évident que l'IA évolue rapidement et qu'il est temps d'y intégrer des mesures de protection du PET, comme la protection différentielle de la vie privée. "Je ne sais pas de combien de temps je dispose", déclare Xi. "Je sais simplement que je fais de mon mieux. Son travail chez Vector la met en contact avec les membres des équipes FL4health et AI Engineering de Vector, avec lesquels elle développe un cadre d'apprentissage fédéré préservant la vie privée pour les données de santé. 

"Le professeur He a été un leader et un collaborateur exceptionnel dans le développement d'algorithmes d'apprentissage fédéré efficaces avec de solides garanties de confidentialité, qui sont de la plus haute importance lorsqu'on travaille avec des données cliniques du monde réel", déclare David Emerson, un scientifique de l'apprentissage machine appliqué chez Vector. "Nous nous réjouissons de continuer à collaborer avec son équipe et de repousser les limites des méthodes d'apprentissage automatique dans le domaine de la santé."

Xi a d'abord été attirée par le sujet non pas en raison de l'urgence, mais pour des raisons intellectuelles relativement banales : ce n'est pas comme si sa carte de crédit avait été piratée ou que quelqu'un s'était introduit dans son téléphone. "Je pense simplement qu'il s'agit d'un problème très important et que je peux utiliser certaines de mes connaissances et compétences pour améliorer cet aspect de la question. Je ne suis pas la seule. Il y a des gens formidables qui travaillent ensemble sur ce problème".

Cliquez ici pour en savoir plus sur le travail de Vector dans le domaine de la confidentialité des données.

En rapport :

Un homme regarde un tableau blanc sur lequel sont inscrites des formules en rouge.
Perspectives
Une IA digne de confiance

Comment mettre en œuvre des systèmes d'IA en toute sécurité

Deux personnes jouant aux échecs
Perspectives
Recherche

Blogue de Vector Research : Votre réseau neuronal est-il en danger ? Le piège des optimiseurs de gradient adaptatifs

Keith Strier et Tony Gaffney s'expriment sur scène lors de la conférence Remarkable 2024.
Perspectives

Remarkable 2024 met en lumière l'écosystème florissant du Canada