Répondre aux grands changements dans les données : Vector Industry Innovation Report sur le projet de changement de jeux de données
11 août 2021
11 août 2021
Par Jonathan Woods
11 août 2021
L’équipe d’innovation industrielle de Vector a publié le rapport technique Dataset Shift and Potential Remedies, qui détaille les expériences et les connaissances obtenues dans le cadre du projet Dataset Shift. Le projet est une collaboration entre l’industrie et le milieu universitaire, créée pour doter les entreprises sponsors de l’industrie de Vector d’une compréhension plus approfondie du changement de jeu de données, de ses variétés, des stratégies efficaces de détection et des techniques d’adaptation. Notamment, les perspectives de ce rapport seront présentées par les participants au projet lors de la Conférence européenne sur l’apprentissage automatique et les principes et pratiques de la découverte de connaissances dans les bases de données (ECML PKDD 2021) le 13 septembre 2021, dans le tutoriel DSML 2021 Évolution des données en apprentissage automatique : qu’est-ce que c’est et quels sont les remèdes potentiels?
Le projet de changement de jeu de données
Les systèmes d’apprentissage automatique (ML) sont entraînés sous le principe que les données d’entraînement et les données réelles auront des schémas de distribution similaires. Cependant, dans des industries dynamiques et des circonstances changeantes, de nouveaux modèles de distribution des données peuvent émerger qui diffèrent significativement des modèles historiques utilisés pour la formation – à tel point qu’ils ont un impact majeur sur la fiabilité des prédictions. Cette différence entre les données d’entraînement et les données de test (ou données utilisées en production) est connue sous le nom de décalage des ensembles de données et, lorsqu’elle est suffisamment sévère, elle nécessite une adaptation. Cette adaptation peut être réalisée soit par un réentraînement lourd et coûteux des modèles, soit par des techniques d’adaptation par décalage de données plus légères et ciblées.
En mai 2020, le Vector Institute a lancé le Dataset Shift Project en réponse à la pandémie et aux changements radicaux qu’elle (et les réponses politiques qui en ont suivi) provoqués dans le comportement des citoyens et des consommateurs. Le projet a réuni 15 participants : cinq chercheurs de Vector et du personnel spécialisés en apprentissage automatique ainsi que 10 professionnels techniques issus de sept entreprises sponsors de l’industrie Vector. Il comprenait quatre tutoriels pratiques, développés et animés par les chercheurs et le personnel de Vector, dans lesquels les participants ont amélioré leurs connaissances et compétences grâce à l’apprentissage expérientiel.
Le projet a couvert trois types de changements de jeu de données :
Dans trois groupes de travail, les participants ont étudié le changement de jeu de données transversales, de séries temporelles et d’images. Ces types de jeux de données correspondaient aux intérêts des participants et reflétaient un véritable potentiel d’application actuel dans leurs organisations. Ce qui suit résume les objectifs et résultats de chaque groupe de travail.
Données en coupes transversales
Le but de cette étude était de détecter un décalage de covariables dans les données transversales et d’adapter les algorithmes et techniques pour en tenir compte. Le groupe a utilisé l’ensemble de données Iowa House Sales Prices de Kaggle et a été chargé de prédire les prix de vente des maisons à partir de données des années 2006 à 2010. Les principales étapes et objectifs de ce groupe de travail étaient de préparer des données transversales pour les expériences, d’appliquer des algorithmes d’analyse de décalage de l’ensemble de données, d’identifier les décalages potentiels, d’utiliser des techniques d’adaptation aux décalages et d’analyser le modèle de prédiction résultant. Le groupe a démontré que l’adaptation n’améliore pas nécessairement les résultats de performance dans tous les cas, ce qui implique que même les meilleurs modèles d’adaptation et transformations ne peuvent généralement pas être appliqués dans différents cas d’usage.
Données de séries chronologiques
Le but de cette étude était d’utiliser l’apprentissage par transfert et l’apprentissage adaptatif comme moyen de s’attaquer aux changements de jeux de données dans le commerce de détail – plus précisément, pour estimer les ventes de nouveaux biens en utilisant les modes de distribution des ventes actuelles ou passées. Pour ce faire, le groupe a utilisé l’ensemble de données Predict Future Sales de Kaggle, qui comprend des données historiques sur les ventes au détail de janvier 2013 à octobre 2015. Le groupe a adopté deux approches :
Le groupe a démontré que les méthodes adaptatives surpassent les méthodes non adaptatives lorsque le changement de concept est présent, et que les résultats sont comparables à ceux lorsqu’il n’y a pas de changement de concept. Pour mieux comprendre l’efficacité des méthodes adaptatives, divers modèles doivent être testés. Le groupe a également conclu que l’application de l’apprentissage par transfert à un nouveau modèle peut améliorer ses capacités de prédiction, accélérer l’entraînement et réduire le coût de la rééducation d’un modèle lorsque les données sont limitées.
Données d’image
Le but de cette étude était d’utiliser des méthodes d’apprentissage à faible coup – des méthodes utilisant des exemples d’entraînement très limités – pour classifier de nouvelles données. Les objectifs du groupe étaient a) de reproduire séparément les résultats des réseaux prototypiques entraînés sur le jeu de données Omniglot et le mini-jeu de données ImageNet, et b) de reproduire les résultats des algorithmes de méta-apprentissage indépendants du modèle entraînés sur l’ensemble de données Omniglot.
Le groupe de travail a démontré que les réseaux prototypiques peuvent s’attaquer au décalage des ensembles de données en utilisant l’apprentissage par peu de coups sur les ensembles de données Omniglot et mini-ImageNet. Cependant, la performance a chuté significativement lors de l’exécution de réseaux prototypiques sur différentes combinaisons de jeux de données – par exemple, lors de l’entraînement de réseaux sur l’ensemble de données Omniglot, puis lors des tests sur le mini-jeu de données ImageNet. Le groupe a également démontré que les algorithmes de méta-apprentissage indépendants du modèle pouvaient s’attaquer au décalage du jeu de données lorsqu’ils étaient entraînés sur l’ensemble de données Omniglot.
Le projet Dataset Shift a permis un transfert important de connaissances entre les chercheurs en Vector et les participants de l’industrie. Les participants de l’industrie ont développé une maîtrise des méthodologies de détection, d’identification et de correction des changements de données dans les ensembles de données, établi des meilleures pratiques conformes aux normes académiques et industrielles les plus récentes, et acquis des compétences pouvant accroître la résilience des organisations et de leurs main-d’œuvre face à des environnements changeants. Une fois mises en production, ces approches ont le potentiel d’offrir une meilleure efficacité, une adaptabilité et des économies de coûts. Enfin, ce projet a également démontré la valeur des efforts collaboratifs entre l’industrie et le milieu universitaire, et a jeté les bases de futurs projets axés sur la compréhension approfondie du changement de jeu de données et des méthodes pour atténuer ses effets dans des contextes pratiques.
Lors du prochain ECML PKDD 2021, trois participants au projet — Ali Pesaranghader, ancien chercheur principal en IA au CIBC et participant au projet Dataset Shift, Mehdi Ataei, affilié de recherche Vector qui a dirigé les éléments techniques du projet chez Vector, et Sedef Akinli Kocak, gestionnaire de projet Vector Applied AI — partageront leurs perspectives sur quatre sujets principaux : Les principes derrière le déplacement des données, les stratégies pour détecter le décalage des ensembles de données, les techniques d’adaptation et les sujets avancés du déplacement des données pour améliorer les modèles d’apprentissage automatique dans des situations où le décalage des ensembles de données est inévitable.