Répondre aux changements majeurs dans les données : Rapport d'innovation de l'industrie vectorielle sur le projet de déplacement des ensembles de données - Vector Institute for Artificial Intelligence

Par Jonathan Woods

11 août 2021

L'équipe Innovation industrielle de Vector a publié le Dataset Shift and Potential Remedies Technical Report (Rapport technique sur le transfert de données et les solutions potentielles)qui détaille les expériences et les connaissances acquises dans le cadre du projet Dataset Shift. Ce projet est le fruit d'une collaboration entre l'industrie et le monde universitaire. Il a été mis en place pour permettre aux entreprises commanditaires de Vector d'acquérir une meilleure compréhension du transfert de données, de ses variantes, des stratégies de détection efficaces et des techniques d'adaptation. Les résultats de ce rapport seront présentés par les participants au projet lors de la Conférence européenne sur l'apprentissage automatique et les principes et pratiques de la découverte de connaissances dans les bases de données (CELV PKDD 2021), le¹³ septembre 2021, dans le cadre du tutoriel suivant DSML 2021 Data Shift in Machine Learning : Qu'est-ce que c'est et quels sont les remèdes potentiels ?

Le projet Dataset Shift

Les systèmes d'apprentissage automatique sont formés en partant du principe que les données d'apprentissage et les données du monde réel présentent des schémas de distribution similaires. Cependant, dans les industries dynamiques et les circonstances changeantes, de nouveaux modèles de distribution des données peuvent émerger et différer considérablement des modèles historiques utilisés pour la formation - à tel point qu'ils ont un impact majeur sur la fiabilité des prédictions. Cette différence entre les données de formation et les données de test (ou les données utilisées en production) est connue sous le nom de décalage du jeu de donnéeset , lorsqu'elle est suffisamment importante, elle nécessite une adaptation. Cette adaptation peut être réalisée soit par le biais d'un recyclage de modèle lourd et coûteux, soit par des techniques d'adaptation au changement de jeu de données plus légères et plus ciblées.

En mai 2020, l'Institut Vecteur a lancé le projet Dataset Shift en réponse à la pandémie et aux changements radicaux qu'elle (et les réponses politiques qui en ont découlé) a entraînés dans le comportement des citoyens et des consommateurs. Le projet a réuni 15 participants : cinq chercheurs et membres du personnel de l'Institut Vecteur spécialisés dans l'apprentissage automatique, ainsi que dix professionnels techniques issus de sept entreprises partenaires de l'Institut Vecteur. Il comprenait quatre tutoriels pratiques, développés et animés par les chercheurs et le personnel de Vector, au cours desquels les participants ont amélioré leurs connaissances et leurs compétences grâce à l'apprentissage par l'expérience.

Le projet couvre trois types de transfert de données :

Changement de covariabledifférence dans la distribution des variables d'entrée entre les données d'apprentissage et les données d'essai. Le changement de covariable peut être dû à un manque de caractère aléatoire, à un échantillonnage inadéquat, à un échantillonnage biaisé ou à une modification de la distribution des variables d'entrée entre les données d'apprentissage et les données de test.
Changement d'étiquette : une différence dans la distribution des variables de classe (c'est-à-dire les résultats de classification d'un modèle ) entre les données d'apprentissage et les résultats du test. Le décalage d'étiquette peut apparaître lorsque certains concepts sont sous-échantillonnés ou suréchantillonnés dans le domaine cible par rapport au domaine source.
Changement de conceptLe changement de concept : une différence dans la relation entre les deux variables utilisées dans le développement d'un algorithme.

Au sein de trois groupes de travail, les participants ont étudié le transfert de données transversales, de séries temporelles et d'images. Ces types de données correspondaient aux intérêts des participants et reflétaient le potentiel d'application réel et actuel dans leurs organisations. Les objectifs et les résultats de chaque groupe de travail sont résumés ci-dessous.

Données transversales

L'objectif de cette étude était de détecter les changements de covariables dans les données transversales et d'adapter les algorithmes et les techniques pour en tenir compte. Le groupe a utilisé le jeu de données Iowa House Sales Prices de Kaggle et a été chargé de prédire les prix de vente des maisons en utilisant les données des années 2006 à 2010. Les principales étapes et les principaux objectifs de ce groupe de travail étaient de préparer des données transversales pour les expériences, d'appliquer des algorithmes d'analyse des changements de données, d'identifier les changements potentiels, d'utiliser des techniques d'adaptation des changements et d'analyser le modèle de prédiction résultant. Le groupe a démontré que l'adaptation n'améliore pas nécessairement les résultats dans tous les cas, ce qui implique que même les meilleurs modèles et transformations d'adaptation ne peuvent pas être appliqués de manière générale dans les différents cas d'utilisation.

Données de séries temporelles

L'objectif de cette étude était d'utiliser l'apprentissage par transfert et l'apprentissage adaptatif comme moyen de s'attaquer au changement d'ensemble de données dans le commerce de détail - plus précisément, d'estimer les ventes de nouveaux produits en utilisant les schémas de distribution des données des ventes actuelles ou passées. Pour ce faire, le groupe a utilisé l'ensemble de données Predict Future Sales de Kaggle, qui consiste en des données historiques de ventes d'articles au détail de janvier 2013 à octobre 2015. Le groupe a adopté deux approches :

Une approche a étudié l'utilisation de l'apprentissage par transfert pour les réseaux de mémoire à long terme à court terme afin d'exploiter les connaissances acquises sur un article de vente et de les transférer à un autre article avec des données limitées. La réutilisation réussie des connaissances acquises précédemment éviterait d'avoir à former un modèle à partir de zéro, ce qui est particulièrement important lorsque les données sont rares et coûteuses à obtenir.
L'autre approche consiste à appliquer des méthodes d'apprentissage adaptatif, qui contrôlent les performances du modèle et mettent à jour ses coefficients en cas de détérioration des performances. Les méthodes d'apprentissage adaptatif ont été utilisées pour corriger les éventuels changements de concepts dans les données, car elles sont connues pour leur robustesse face aux changements de concepts dans les environnements dynamiques. Cette approche était particulièrement pertinente dans le contexte de la pandémie COVID-19, car le changement important et soudain du comportement humain qu'elle a provoqué a rendu certains modèles prédictifs inexacts en raison du changement de concept.

Le groupe a démontré que les méthodes adaptatives sont plus performantes que les méthodes non adaptatives en cas de changement de concept, et que les résultats sont comparables à ceux obtenus en l'absence de changement de concept. Pour mieux comprendre l'efficacité des méthodes adaptatives, différents modèles doivent être testés. Le groupe a également conclu que l'application de l'apprentissage par transfert à un nouveau modèle peut améliorer ses capacités de prédiction, accélérer la formation et réduire le coût du recyclage d'un modèle lorsque les données disponibles sont limitées.

Données d'image

L'objectif de cette étude était d'utiliser des méthodes d'apprentissage à court terme, c'est-à-dire des méthodes utilisant un nombre très limité d'exemples d'entraînement, pour classer de nouvelles données. Les objectifs du groupe étaient de a) reproduire les résultats des réseaux prototypiques formés sur l'ensemble de données Omniglot et l'ensemble de données mini-ImageNet séparément, et b) reproduire les résultats des algorithmes de méta-apprentissage agnostiques au modèle formés sur l'ensemble de données Omniglot.

Le groupe de travail a démontré que les réseaux prototypiques peuvent s'attaquer au changement d'ensemble de données en utilisant l'apprentissage à quelques coups sur les ensembles de données Omniglot et mini-ImageNet. Cependant, les performances ont chuté de manière significative lorsque les réseaux prototypiques sont utilisés sur différentes combinaisons d'ensembles de données - par exemple, lorsque les réseaux sont entraînés sur l'ensemble de données Omniglot puis testés sur l'ensemble de données mini-ImageNet. Le groupe a également démontré que les algorithmes de méta-apprentissage agnostiques aux modèles pouvaient s'attaquer au changement d'ensemble de données lorsqu'ils étaient entraînés sur l'ensemble de données Omniglot.

Le projet Dataset Shift a donné lieu à un important transfert de connaissances entre les chercheurs de Vector et les participants de l'industrie. Ces derniers ont acquis des compétences en matière de détection, d'identification et de correction des décalages de données, ont établi des pratiques exemplaires conformes aux normes universitaires et industrielles les plus récentes et ont acquis des compétences susceptibles d'accroître la résilience des organisations et de leur main-d'œuvre face à des environnements en constante évolution. Si elles sont mises en production, ces approches ont le potentiel d'améliorer l'efficacité, l'adaptabilité et la réduction des coûts. Enfin, ce projet a également démontré la valeur des efforts de collaboration entre l'industrie et le monde universitaire, et a jeté les bases de futurs projets axés sur une compréhension plus approfondie du déplacement des ensembles de données et des méthodes permettant d'en atténuer les effets dans des contextes pratiques.

Lors de la prochaine conférence PKDD 2021 du CELV, trois participants au projet - AliPesaranghader, ancien chercheur principal en IA à la CIBC et participant au projet Dataset Shift, Mehdi Ataei, chercheur affilié à Vector qui a dirigé les éléments techniques du projet chez Vector, et Sedef Akinli Kocak, chef de projet en IA appliquée chez Vector - partageront leurs points de vue sur quatre sujets principaux : les principes qui sous-tendent le transfert de données, les stratégies de détection du transfert de données, les techniques d'adaptation et les sujets avancés en matière de transfert de données pour améliorer les modèles d'apprentissage automatique dans les situations où le transfert de données est inévitable.

Répondre aux changements majeurs dans les données : Rapport d'innovation de l'industrie vectorielle sur le projet de réorientation des données

En rapport :

L'écosystème de l'IA en Ontario : une croissance économique réelle grâce à un nombre record d'emplois et d'investissements privés

L'Institut Vecteur annonce la nomination de Glenda Crisp au poste de présidente-directrice générale

L'institut Vector dévoile une évaluation complète des principaux modèles d'IA