Désapprentissage

30 juillet 2020

Par Ian Gormely

 

Il fut un temps où l'on pensait que "l'internet n'oublie jamais" était un truisme fondamental de la vie en ligne. Mais une série de décisions judiciaires ont remis en cause cette notion, et la possibilité d'effacer l'empreinte en ligne d'une personne apparaît comme un principe fondamental du droit à la vie privée numérique.

Mais si une législation telle que le règlement de l'Union européenne sur le "droit à l'oubli" énonce des principes importants en matière de protection de la vie privée, elle ne propose pas de solutions techniques pour y parvenir dans un monde en ligne hyperconnecté où un seul message peut être agrégé sur de multiples canaux.

De même, la suppression des données d'une personne dans un algorithme d'IA est un processus qui prend du temps. Il peut coûter aux entreprises des ressources précieuses et retarder la prise en compte d'une demande raisonnable d'une personne souhaitant que ses informations soient nettoyées.

Pour résoudre ce problème, Nicolas Papernot, membre de la faculté Vector, titulaire de la chaire d'IA du Canada CIFAR et professeur adjoint au département de génie électrique et informatique de l'UoT, et son équipe ont étudié comment les modèles pouvaient être entraînés différemment pour faciliter le traitement de ces demandes, tout en mettant à jour un modèle sans le modifier fondamentalement. "C'est la garantie que nous voulons apporter aux utilisateurs.

Les modèles et algorithmes d'IA sont créés en utilisant des millions de points de données provenant de milliers de personnes. "Il faut partir du principe que ces modèles sont des sous-produits directs des données", explique M. Papernot. Au cours du processus de formation, où les algorithmes apprennent en passant au peigne fin des exemples ou des points de données, chaque point de données est utilisé pour mettre à jour tous les paramètres du modèle. Chaque mise à jour future dépendra de ce point de données spécifique. "Par conséquent, si vous supprimez ce point de données, vous devez également supprimer les modèles.

Bien entendu, l'abandon pur et simple d'un modèle n'est généralement pas une option pour les chercheurs ou les entreprises. Papernot et ses coauteurs ont donc étudié différentes façons de présenter les données à un modèle afin de pouvoir y apporter de petites modifications.

Leur article, intitulé "Machine Unlearning", qui a récemment été accepté au Symposium de l'IEEE sur la sécurité et la vie privée, la principale conférence sur la sécurité informatique et la vie privée électronique, propose une approche en deux volets. Tout d'abord, ils "découpent" les données, en créant de nombreux petits modèles plutôt qu'un grand, ce qui limite l'influence d'un seul point de données. "Nous demandons ensuite aux différents modèles de voter sur l'étiquette qu'ils prédisent", explique M. Papernot. "Nous comptons le nombre de votes reçus par chaque classe et nous sortons la classe qui a reçu le plus grand nombre de votes.

Ensuite, ils "découpent" les fragments et présentent les données au modèle par petites étapes, en augmentant la quantité de données à chaque fois tout en créant des points de contrôle en cours de route. "Ainsi, lorsque quelqu'un nous demande de désapprendre ses données, nous pouvons revenir au point de contrôle enregistré avant de commencer à analyser ses données", ce qui permet de gagner du temps et d'économiser des ressources.

M. Papernot, dont les recherches sont axées sur les domaines de la protection de la vie privée et de la sécurité dans l'apprentissage automatique, n'est pas le seul à chercher des moyens de s'attaquer à ce problème. L'IA étant intégrée dans de nombreuses facettes de la société, le désapprentissage des données devient une question de plus en plus importante pour les entreprises.

Mais lui et son équipe ont été parmi les premiers à se pencher sur la question, et leur approche est plus saine que celle de nombre de leurs homologues. "Nous voulions être complètement agnostiques quant au type d'algorithme que les gens utilisent, afin de pouvoir l'intégrer à n'importe quel pipeline.

L'objectif, explique-t-il, est de permettre aux organisations de recevoir et de traiter rapidement ces demandes. "Si le modèle nécessite une semaine de formation, cela ralentit la vitesse à laquelle une organisation traite ces demandes. Nous disons qu'il est possible de le faire plus régulièrement et à moindre coût".

 

Image tirée de Teaching Machines to Unlearn sur le blog cleverhans. Pour en savoir plus sur la sécurité et la protection de la vie privée dans l'apprentissage automatique, lisez l'article du cleverhans-blog ici.

 

En rapport :

Des protocoles normalisés sont essentiels pour un déploiement responsable des modèles linguistiques

Les inconnues connues : Geoff Pleiss, chercheur chez Vector, se penche sur l'incertitude pour rendre les modèles de ML plus précis.

Un homme regarde un tableau blanc sur lequel sont inscrites des formules en rouge.
Perspectives
Une IA digne de confiance

Comment mettre en œuvre des systèmes d'IA en toute sécurité