Les techniques du CIBC pour maintenir la précision des modèles d’IA lorsque les données changent

17 août 2021

2021Insights : Apprentissage automatique

17 août 2021

Par Jonathan Woods

La performance passée ne garantit pas les résultats futurs, donc l’axiome est le suivant. Dans un contexte d’IA, rien n’incarne mieux cette notion que le changement de jeu de données. C’est un enjeu crucial, mais sous-estimé, pour la plupart des entreprises utilisant l’IA, et pour lequel le parrainage de l’industrie Vector, CIBC, possède une expertise particulière.

Comprendre le décalage des ensembles de données implique d’abord de reconnaître une hypothèse faite lors de l’entraînement des systèmes d’IA : que les données utilisées pour l’entraînement auront une distribution similaire à celles utilisées une fois le système en production. Pour illustrer : un détaillant peut entraîner un système à prédire les ventes dans un avenir proche en lui fournissant des données de ventes des trois dernières années, en supposant que les grandes tendances dans cet ensemble de données resteront plus ou moins les mêmes.

En réalité, la distribution des données change. Les systèmes d’IA fonctionnent dans des environnements dynamiques et évolutifs, ce qui signifie qu’éventuellement, des différences apparaîtront probablement entre les données d’entraînement et celles collectées pour l’utilisation réelle d’un modèle. Cette différence s’appelle le décalage de l’ensemble de données. Lorsque c’est grave – possiblement à cause d’un événement majeur comme une pandémie mondiale – il faut corriger pour éviter une dégradation sérieuse de la performance prédictive du modèle ou un réentraînement coûteux du modèle à partir de zéro avec de nouveaux ensembles de données.

L’équipe d’analytique avancée et d’intelligence artificielle de la CIBC – qui travaille sur des projets à la banque allant de l’amélioration de l’expérience client et la personnalisation des offres à la réduction de la fraude et à l’accélération du traitement des transactions – possède une expertise remarquable dans la gestion des données dans un monde dynamique. En tant que commanditaire de l’Institut Vector, ils ont récemment renforcé cette expertise en participant au projet Dataset Shift de Vector, une collaboration industrie-milieu universitaire dirigée par l’équipe d’innovation industrielle de Vector. Le projet était une réponse à la pandémie et aux changements radicaux qu’elle (ainsi que les réponses gouvernementales qui ont suivi) provoqués dans le comportement des citoyens et des consommateurs. Le projet s’est concentré sur l’équipement des participants pour mieux comprendre les principes du décalage des ensembles de données, les stratégies pour détecter les changements et les techniques de leur adaptation.

Au CIBC, la liste des domaines où les techniques d’identification et d’adaptation des changements de données peuvent être pertinentes est longue. Ali Pesaranghader, alors chercheur principal en IA au CIBC et participant au projet Dataset Shift, déclare : « Le transfert de données pourrait potentiellement apparaître sous forme d’expérience client, d’acquisition de produits, de demande de liquidités aux guichets automatiques, de détection de fraude, de dépôts au trésor, entre autres applications. » Il explique que ce changement pourrait se produire en raison de changements dans la composition du portefeuille ou des conditions du marché « en raison de l’échéance d’un portefeuille ou de l’impact de la COVID-19 sur le comportement transactionnel transfrontalier des clients ».

Dans le projet Dataset Shift, Pesaranghader a rejoint le courant de travail axé sur le changement des données transversales, qui, comme son nom l’indique, désigne des données recueillies auprès d’un échantillon représentatif d’une population – peut-être des clients, des entreprises ou des produits – à un moment ou une période donnée. Les objectifs de ce flux de travail étaient d’abord pouvoir détecter si un décalage du jeu de données était présent, puis, si oui, de le corriger en adaptant des algorithmes pour restaurer la performance du modèle. Les membres du flux de travail se concentraient sur une variation appelée décalage de covariables, qui fait référence au décalage survenant dans les variables des données d’entrée d’un modèle. Le décalage des covariables peut se produire pour plusieurs raisons : les données d’entraînement d’un modèle peuvent manquer d’un aléatoire suffisant, l’échantillonnage de ces données peut avoir été biaisé d’une certaine manière, ou un événement à grande échelle – une crise financière, une pandémie ou une catastrophe naturelle – a pu avoir un effet si important sur une population sujette qu’il a modifié des schémas de longue date.

Le groupe a réalisé son analyse à partir des données sur les prix de vente des maisons en Iowa de 2006 à 2010. Ces données incluaient des caractéristiques liées aux maisons qui influencent le prix, comme l’année de construction des maisons, le quartier où elles se trouvaient, ainsi que la qualité globale de leurs matériaux et de leur finition. Ils ont cherché à identifier les changements liés à chacune de ces caractéristiques. En d’autres termes, ils voulaient déterminer si chaque caractéristique – en tant que variable influençant le prix – maintenait une cohérence dans sa contribution à ce prix, ou si, à un moment donné, elle montrait une différence marquée dans son effet. Si une variable n’a plus contribué au prix d’une maison comme elle l’a fait dans les données utilisées pour entraîner le modèle, il est probable que les prédictions sur les prix futurs en souffriraient, et le modèle pourrait nécessiter une correction. Le groupe, grâce à des expériences, a conclu que les techniques de détection et de correction de décalage sont efficaces et avantageuses dans la plupart des cas où un décalage de covariables se produit et a créé un nouvel ensemble de meilleures pratiques pour y faire face.

Pour les professionnels de l’IA du CIFC, travailler avec les chercheurs et le personnel de Vector améliore leurs compétences dans ce domaine, déjà avancées. Andrew Brown, directeur principal de la science des données et de la recherche en IA chez CIBC (titulaire d’un doctorat en apprentissage automatique, ayant étudié sous la direction du cofondateur et conseiller scientifique en chef de Vector, Geoffrey Hinton), déclare : « On obtient un bénéfice concret immédiat lorsque les gens travaillent sur un projet avec la direction, et guidés par Vector, ils sont orientés dans la bonne direction. Il y a une exposition directe aux techniques et technologies. C’est un avantage évident qui découle de ces projets. »

Ce bénéfice a été amplifié lorsque Pesaranghader et Mehdi Ataei, affilié de Vector Postgraduate qui a dirigé les éléments techniques du projet chez Vector, ont partagé des perspectives liées à leur travail avec la communauté CIBC Analytics Edge, un groupe interne de professionnels de l’apprentissage automatique et de data scientists issus de divers secteurs d’activité. Pesaranghader dit : « Nous avons compressé ce que nous avions dans le projet et nous sommes concentrés sur les méthodes et leur applicabilité dans différentes situations. »

Cela a offert un avant-goût d’une plus grande opportunité pour CIBC et Vector de présenter un leadership d’opinion lié à l’IA : le duo, accompagné du gestionnaire de projet Vector Sedef Akinli Kocak, présentera à la Conférence européenne sur l’apprentissage automatique et les principes et pratiques de la découverte de connaissances dans les bases de données, une conférence de premier plan prévue pour septembre 2021.

Une fois mises en production, cette expertise et cette nouvelle boîte à outils avancée peuvent permettre à CIBC de maximiser l’efficacité et la résilience de leurs systèmes d’IA, même en période de changements externes soudains et importants. C’est un avantage technique important dans un monde où il est devenu trop clair que de tels changements peuvent et arrivent.

_ _ _

Accédez ici au rapport technique sur l’innovation industrielle du Vector Institute « Dataset Shift and Potential Remedies ».

À lire aussi :

2026
Réflexions
Recherche
Recherche 2026

La nouvelle cartographie de l’invisible

Logo vectoriel
2025
Réflexions

Une nouvelle étude révèle l’impact économique de 100 milliards de dollars de l’IA à travers le Canada, avec l’Ontario en tête

2025
Apprentissage automatique
Recherche
Recherche 2025

Quand l’IA intelligente devient trop intelligente : Principaux enseignements de l’atelier 2025 sur la sécurité et la vie privée en apprentissage automatique de Vector