Les techniques de la CIBC pour maintenir la précision des modèles d'IA lorsque les données changent

17 août 2021

17 août 2021

Par Jonathan Woods

Les performances passées ne garantissent pas les résultats futurs, dit l'axiome. Dans le contexte de l'IA, rien n'incarne mieux cette notion que le changement d'ensemble de données. Il s'agit d'un problème crucial, mais sous-estimé, pour la plupart des entreprises qui utilisent l'IA, et pour lequel le commanditaire industriel de Vector, la CIBC, possède une expertise particulière.

Pour comprendre le changement d'ensemble de données, il faut d'abord reconnaître une hypothèse faite lors de la formation des systèmes d'IA : que les données utilisées pour la formation auront une distribution similaire aux données utilisées une fois que le système sera en production. Par exemple, un détaillant peut entraîner un système à prédire les ventes dans un avenir proche en lui fournissant des données sur les ventes des trois dernières années, en supposant que les grandes tendances de cet ensemble de données resteront plus ou moins les mêmes.

En réalité, la distribution des données change. Les systèmes d'IA fonctionnent dans des environnements dynamiques et évolutifs, ce qui signifie qu'à terme, des différences apparaîtront probablement entre les données d'entraînement et les données collectées pour l'utilisation réelle d'un modèle. Cette différence est appelée "changement d'ensemble de données". Lorsqu'elle est importante - peut-être en raison d'un événement majeur tel qu'une pandémie mondiale - elle doit être corrigée pour éviter une dégradation grave des performances de prédiction d'un modèle ou un réentraînement coûteux du modèle à partir de zéro avec de nouveaux ensembles de données.

L'équipe d'analyse avancée et d'intelligence artificielle de la CIBC - qui travaille sur des projets allant de l'amélioration de l'expérience client et de la personnalisation des offres à la réduction de la fraude et à l'accélération du traitement des transactions - possède une expertise notable dans le traitement des données dans un monde dynamique. En tant que sponsor de l'Institut Vector, elle a récemment renforcé cette expertise en participant au projet Dataset Shift de Vector, une collaboration entre l'industrie et le monde universitaire dirigée par l'équipe d'innovation industrielle de Vector. Ce projet est une réponse à la pandémie et aux changements radicaux qu'elle (et les réponses gouvernementales qui en ont découlé) a entraînés dans le comportement des citoyens et des consommateurs. Le projet visait à doter les participants d'une meilleure compréhension des principes de transfert de données, des stratégies de détection des changements et des techniques d'adaptation.

À la CIBC, la liste des domaines dans lesquels les techniques d'identification et d'adaptation du transfert de données peuvent être pertinentes est longue. Ali Pesaranghader, alors chercheur principal en IA à la CIBC et participant au projet Dataset Shift, déclare : "Le transfert de données peut potentiellement apparaître sous différentes formes dans l'expérience client, l'acquisition de produits, la demande de liquidités aux guichets automatiques, la détection des fraudes, les dépôts de trésorerie, entre autres applications." Il explique que le transfert peut se produire en raison de changements dans la composition des portefeuilles ou des conditions de marché "en raison de la maturation d'un portefeuille ou de l'impact de COVID-19 sur le comportement des clients en matière d'opérations transfrontalières".

Dans le cadre du projet Dataset Shift, Pesaranghader a rejoint le groupe de travail axé sur le décalage des données transversales qui, comme son nom l'indique, se réfère à des données collectées à partir d'une section transversale d'une population - peut-être des clients, des entreprises ou des produits - en un seul point ou à une seule période de temps. Les objectifs de ce groupe de travail étaient d'abord de pouvoir détecter la présence d'un décalage de données, puis, le cas échéant, de le corriger en adaptant les algorithmes afin de rétablir les performances du modèle. Les membres du groupe de travail se sont concentrés sur une variation appelée décalage de covariables, qui se réfère au décalage qui se produit dans les variables des données d'entrée d'un modèle. Le changement de covariable peut se produire pour plusieurs raisons : les données d'apprentissage d'un modèle peuvent ne pas avoir été suffisamment aléatoires, l'échantillonnage de ces données peut avoir été biaisé d'une manière ou d'une autre, ou un événement à grande échelle - une crise financière, une pandémie ou une catastrophe naturelle - peut avoir eu un effet si important sur une population donnée qu'il a modifié des schémas établis de longue date.

Le groupe a réalisé son analyse à partir des données sur les prix de vente des maisons dans l'Iowa entre 2006 et 2010. Ces données comprenaient des caractéristiques liées aux maisons qui ont un impact sur le prix, telles que l'année de construction, le quartier où elles se trouvent et la qualité générale des matériaux et des finitions. Ils ont cherché à identifier les changements liés à chacune de ces caractéristiques. En d'autres termes, ils ont voulu déterminer si chaque caractéristique - en tant que variable influençant le prix - conservait une certaine cohérence dans sa contribution à ce prix ou si, à un moment donné, elle présentait une différence marquée dans son effet. S'il s'avère qu'une variable ne contribue plus au prix d'une maison de la même manière que dans les données utilisées pour former le modèle, il est probable que les prédictions sur les prix futurs en pâtiront et que le modèle devra être corrigé. Les expériences menées par le groupe ont permis de conclure que les techniques de détection et de correction des changements sont efficaces et avantageuses dans la plupart des cas où des changements de covariables se produisent, et de créer un nouvel ensemble de meilleures pratiques pour les traiter.

Pour les professionnels de l'IA de la CIBC, le fait de travailler avec les chercheurs et le personnel de Vector améliore leurs capacités dans ce domaine, qui sont déjà très avancées. Andrew Brown, directeur principal de la science des données et de la recherche en IA à la CIBC (titulaire d'un doctorat en apprentissage machine, ayant étudié sous la direction de Geoffrey Hinton, cofondateur de Vector et conseiller scientifique en chef), déclare : " On obtient un avantage concret immédiat lorsque les gens travaillent ensemble sur un projet en étant guidés, et que Vector les oriente dans la bonne direction. Il y a une exposition pratique aux techniques et aux technologies. C'est un avantage évident de ces projets".

Cet avantage a été multiplié lorsque M. Pesaranghader et Mehdi Ataei, un affilié de troisième cycle de Vector qui a dirigé les éléments techniques du projet chez Vector, ont partagé les idées liées à leur travail avec la communauté Analytics Edge de la CIBC, un groupe interne de professionnels de l'apprentissage automatique et de scientifiques des données issus de divers secteurs d'activité. M. Pesaranghader explique : " Nous avons compressé tout ce que nous avions dans le projet et nous nous sommes concentrés sur les méthodes et leur applicabilité dans différentes situations. "

Il s'agissait d'un avant-goût d'une occasion plus importante pour la CIBC et Vector de présenter un leadership éclairé en matière d'IA : le duo, ainsi que Sedef Akinli Kocak, gestionnaire de projet chez Vector, feront une présentation à l'European Conference on Machine Learning & Principles and Practice of Knowledge Discovery in Databases, une conférence de premier plan sur l'apprentissage automatique prévue pour septembre 2021.

Lorsqu'elle sera mise en production, cette expertise et cette nouvelle boîte à outils avancée pourront permettre à la CIBC de maximiser l'efficacité et la résilience de ses systèmes d'IA, même en cas de changements externes soudains et importants. Il s'agit là d'un avantage technique considérable dans un monde où il est devenu évident que de tels changements peuvent se produire et se produisent effectivement.

_ _ _

Accéder au rapport technique de l'Institut Vector sur l'innovation industrielle "Déplacement de l'ensemble des données et remèdes potentiels" ici.

En rapport :

Recherche
Une IA digne de confiance

Des experts de renommée mondiale en matière de confiance et de sécurité de l'IA publient un article majeur sur la gestion des risques liés à l'IA dans la revue Science

Des protocoles normalisés sont essentiels pour un déploiement responsable des modèles linguistiques

Les inconnues connues : Geoff Pleiss, chercheur chez Vector, se penche sur l'incertitude pour rendre les modèles de ML plus précis.