Désapprentissage

30 juillet 2020

Analysesde blogue 2020: IA fiable

Par Ian Gormely

« Internet n’oublie jamais », on a autrefois considéré comme une réalité fondamentale de la vie en ligne. Mais une série de décisions juridiques a remis en question cette idée, et la capacité d’effacer l’empreinte en ligne d’une personne émerge comme un principe fondamental des droits à la vie privée numérique.

Mais bien que des lois comme le règlement de l’Union européenne sur le « droit à l’oubli » énoncent des principes importants en matière de vie privée numérique, elles n’offrent pas de solutions techniques pour y parvenir dans un monde en ligne hyperconnecté où un seul message peut être agrégé sur plusieurs canaux.

De même, supprimer les données de quelqu’un d’un algorithme d’IA est un processus long. Cela peut coûter des ressources précieuses aux entreprises et retarder l’action sur une demande raisonnable de faire nettoyer ses informations.

Pour remédier à ce problème, Nicolas Papernot, membre du corps professoral de Vector, titulaire de la chaire IA du CIFAR au Canada et professeur adjoint au département de génie électrique et informatique, et son équipe ont examiné comment les modèles pouvaient être entraînés différemment afin de faciliter le traitement de ces demandes tout en mettant à jour un modèle sans le modifier fondamentalement. « C’est la garantie que nous voulons offrir aux utilisateurs. »

Les modèles et algorithmes d’IA sont créés en utilisant des millions de points de données provenant de milliers de personnes. « Il faut supposer que ces modèles sont des sous-produits directs des données », dit Papernot. Pendant le processus d’entraînement, où les algorithmes apprennent en passant en revue des exemples ou des points de données, chaque point de données est utilisé pour mettre à jour tous les paramètres du modèle. Chaque mise à jour future dépendra de ce point de données précis. « Donc si tu supprimes ce point de données, tu devrais aussi supprimer les modèles. »

Bien sûr, mettre au rebut un modèle en gros n’est généralement pas une option pour les chercheurs ou les entreprises. Ainsi, Papernot et ses coauteurs ont examiné différentes façons de présenter les données à un modèle afin d’apporter de petits ajustements.

Leur article, « Machine Unlearning », récemment accepté au Symposium IEEE sur la sécurité et la vie privée, la principale conférence sur la sécurité informatique et la vie privée électronique, propose une approche à deux volets. Premièrement, ils « fragmentent » les données, créant de nombreux modèles plus petits au lieu d’un seul gros, restreignant ainsi l’influence d’un seul point de données. « Nous demandons ensuite aux différents modèles de voter sur l’étiquette qu’ils prédisent », explique Papernot. « Nous comptons le nombre de votes reçus par classe et obtenons celle qui a reçu le plus grand nombre de voix. »

Ensuite, ils « découpent » les fragments et présentent les données au modèle par petits incréments, augmentant la quantité de données à chaque fois tout en créant des points de contrôle en cours de route. « Donc, quand quelqu’un nous demande de désapprendre ses données, on peut revenir au point de contrôle sauvegardé avant qu’on commence à analyser ses données », économisant du temps et des ressources.

Papernot, dont les recherches portent sur les domaines de la vie privée et de la sécurité dans l’apprentissage automatique, n’est pas le seul à chercher des moyens de s’attaquer à ce problème. À mesure que l’IA est intégrée à de nombreux aspects de la société, le désapprentissage des données devient un enjeu croissant pour les entreprises.

Mais lui et son équipe ont été parmi les premiers à s’y intéresser, et leur approche est plus saine que celle de beaucoup de leurs pairs. « On voulait être complètement agnostiques quant au type d’algorithme que les gens utilisent, pour qu’on puisse simplement l’intégrer avec n’importe quel pipeline qu’on a. »

L’objectif, explique-t-il, est de rendre pratique pour les organisations de recevoir et de traiter rapidement ces demandes. « Si le modèle prend une semaine à se réentraîner, cela ralentit la rapidité avec laquelle une organisation traitera ces demandes. Nous disons que vous pouvez faire cela plus régulièrement et à moindre coût. »

À lire aussi :

2026
Réflexions
Recherche
Recherche 2026

La nouvelle cartographie de l’invisible

Logo vectoriel
2025
Réflexions

Une nouvelle étude révèle l’impact économique de 100 milliards de dollars de l’IA à travers le Canada, avec l’Ontario en tête

2025
Réflexions
Partenariat
Histoires de réussite

Pourquoi le partenariat du leader bancaire en IA CIBC avec le Vector Institute continue de croître