Un agent IA de Telus abordait la durabilité comme une partie d’échecs
17 février 2021
17 février 2021

17 février 2021
Par Jonathan Woods
Tout dans ce petit centre de données quelconque se trouve en singles. Il y a un serveur, une unité de refroidissement et une règle d’or : respectez les directives thermiques. C’est dans ce contexte que TELUS a lancé un agent IA chargé de refroidir la pièce aussi efficacement que possible, lui donnant carte blanche virtuelle pour trouver comment faire.
Il s’agissait du premier test réel dans le cadre du projet Energy Optimization System (EOS) de TELUS, un projet pilote où un agent d’apprentissage par renforcement prenait le contrôle d’un système physique réel afin de s’auto-former à mieux l’utiliser. L’excitation était à son comble. Deux mois plus tôt, ce même agent avait démontré qu’il pouvait augmenter l’efficacité énergétique de 2% à 15% dans un simulateur, grâce en grande partie à une série de ses propres innovations ingénieuses.
EOS est né dans le cadre du projet Model-Based Reinforcement Learning (MBRL) de l’Institut Vector — l’initiative d’IA pour le bien gérée par l’équipe d’innovation industrielle de Vector — et a été développée par TELUS pour s’aligner sur son objectif de durabilité de réduire son intensité énergétique de 50% entre 2020 et 2030.
« L’apprentissage par renforcement est l’une des trois principales catégories d’IA. Les autres sont des apprentissages supervisés et non supervisés », explique le Dr Vincent Zha, scientifique principal des données dans l’équipe d’analytique avancée et d’IA de TELUS. « Mais l’apprentissage par renforcement, c’est un peu différent. Elle n’a pas besoin d’autant de données d’entrée, et on n’apprend vraiment rien avant d’arriver à la fin de son processus. »
Contrairement à l’apprentissage supervisé et non supervisé, un modèle d’apprentissage par renforcement n’est pas initialement entraîné sur des données pour apprendre à faire des prédictions précises. Au lieu de cela, elle commence par un objectif puis interagit avec un environnement, apprenant des conséquences de ses actions et itérant vers l’optimisation. « L’apprentissage par renforcement, c’est passer à l’action, plutôt que de se limiter à la prédiction », explique Amir-Massoud Farahmand, membre du corps professoral de Vector qui, avec la chercheuse Vector Romina Abachi, a offert des conseils aux participants du projet MBRL. « Pour cette raison, l’apprentissage par renforcement va être très utile pour des applications dans l’industrie », explique Farahmand.
Une autre raison pour laquelle l’apprentissage par renforcement est particulièrement adapté aux systèmes réels est qu’il tient compte des effets à long terme des décisions. Lorsqu’il s’agit de réfléchir à l’action à entreprendre dans une situation donnée, un agent d’apprentissage par renforcement fait des prédictions sur les impacts immédiats des actions potentielles ainsi que sur les effets que chacune aura plus tard. Cela permet à l’agent d’aborder l’état actuel du système dans lequel il fonctionne, tout en restant sur la bonne voie pour atteindre son objectif ultime de manière optimale. Ces fonctionnalités – être orientées vers les objectifs et capables de penser à l’avenir – expliquent pourquoi l’équipe a choisi d’utiliser l’apprentissage par renforcement pour ce projet pilote.
Avant de tester l’agent d’apprentissage par renforcement sur des systèmes réels, l’équipe l’a exécuté sur un simulateur. Lors du test, l’agent a reçu le contrôle de l’unité de chauffage, ventilation et climatisation (CVC), qui dispose de deux méthodes pour refroidir la pièce : un compresseur d’air relativement énergivore et une fonction moins coûteuse de « refroidissement libre » — essentiellement l’air extérieur qui est poussé dans la pièce. L’agent a également reçu les prévisions météo du jour ainsi qu’une mise à jour minute par minute de la température de la pièce. Après chaque mise à jour, l’agent décidait s’il utilisait le compresseur d’air, le refroidissement libre ou ne faisait ni l’un ni l’autre. Il recalculait ensuite son plan d’action pour le reste de la journée, mis à jour avec ses nouveaux apprentissages.
Les résultats ont stupéfié l’équipe – non seulement pour la réduction de 2% à 15% de la consommation d’énergie que l’agent a réalisée – mais aussi pour les nombreuses innovations qu’elle avait concoctées pour y parvenir. Deux de ces innovations se sont démarquées.
D’abord, l’agent a immédiatement adopté une approche sans intervention, laissant la température de la pièce monter le plus près possible de la limite avant de la stabiliser à cet endroit. Typiquement, le programme de l’unité CVC baissait la température de quatre degrés chaque fois qu’elle se rapprochait de la limite supérieure de la plage thermique. Cela fournirait une marge tampon suffisante pour accueillir toute la plage de températures extérieures qui pourrait influencer les conditions à l’intérieur du centre de données. L’agent a appris qu’il était plus efficace de laisser la température monter tout au long de la matinée vers le seuil, puis de la gérer dynamiquement en utilisant des rafales rapides de compresseur d’air et un refroidissement libre au besoin. La logique est claire : pourquoi gaspiller de l’énergie à baisser la température plus que nécessaire? Tant que la température reste en dessous de la borne supérieure, que ce soit de 4° ou 1°, l’agent reste sur le côté.
Une deuxième approche était « véritablement une innovation » de l’agent, selon Zha. Vers cinq heures du matin, à peu près au moment où la température extérieure atteignait son plus bas pour la journée, l’agent a commencé à bombarder la pièce avec un système de refroidissement gratuit, qu’il a fait fonctionner sans interruption jusqu’en milieu d’après-midi. Au début, ça semblait déroutant. Le refroidissement gratuit n’est pas cher, mais ce n’est pas gratuit. Pourquoi dépenser de l’énergie alors que la pièce était déjà à son plus froid?
La réponse était dans les prévisions météorologiques. Zha explique : « L’agent voit dans les prévisions météo que la température de l’après-midi sera très chaude. Il détermine que c’est le meilleur moment pour faire plus de refroidissement libre afin de retarder l’utilisation du compresseur, car le compresseur est très coûteux. »
L’agent fait un compromis. « C’est comme un bon joueur d’échecs », dit Zha. « Un bon joueur d’échecs fait parfois des sacrifices à l’étape immédiate, mais il peut en gagner plus 20 pas plus tard. Sacrifie un peu maintenant pour éviter un gros coût à l’avenir. » L’équipe n’avait pas pensé que l’agent découvrirait cette approche. Les programmes CVC standards n’ont pas pris en compte les prévisions uniques de la journée. Ça ne pouvait pas. Mais l’agent avait compris.
« C’est la marque de fabrique de l’apprentissage par renforcement », dit Zha.
Deux mois plus tard, l’équipe de TELUS se retrouve à travailler dans cette petite pièce anonyme pour tester l’agent sur un CVC réel ― et voit les résultats simulés validés. Les prochaines étapes de l’équipe : étendre les tests à des sites plus grands et plus complexes avant une éventuelle mise en œuvre dans les salles de données TELUS.
Le projet pilote a permis de nouvelles capacités et possibilités à TELUS. L’organisation de l’exécution d’un projet pilote d’apprentissage par renforcement sur de vrais systèmes physiques a montré qu’un échantillon représentatif de professionnels techniques et non techniques au sein de TELUS pouvait se réunir pour mettre en œuvre un projet d’IA sophistiqué.
« Une fois que nous avons dû toucher aux systèmes physiques, non seulement nous avons dû comprendre la théorie de l’apprentissage par renforcement et développer l’algorithme, mais nous avons aussi dû naviguer entre les différentes parties prenantes et propriétaires du réseau pour même accéder à cette salle », explique la Dre Ivey Chiu, data scientist principale en analytique avancée et IA. Le projet a impliqué une collaboration étroite avec Dominic Dupuis, gestionnaire de la stratégie technologique des environnements critiques pour la mission de TELUS, Jonah Braverman, ingénieur en gestion de l’énergie et Alexandre Guilbault, directeur de l’analytique et de l’IA, ainsi que des parties prenantes des opérations réseau, des opérations de bâtiments et du bureau Data & Trust, qui devaient tous comprendre, prêter leur expertise et approuver le projet.
« C’était un processus de construction de confiance avec nous et d’être très transparents sur ce que nous essayions de faire », dit Chiu. Chiu souligne également que cette approche transversale et l’accent mis sur la confiance et la transparence reflètent l’engagement de TELUS envers une IA responsable, qui guide leurs efforts pour augmenter les capacités technologiques d’une manière qui apporte des bénéfices à la société.
De plus, cet effort a permis à l’équipe d’Advanced Analytics & AI de TELUS de produire des recherches originales. « Normalement, nous utilisons des algorithmes existants pour améliorer notre entreprise. Ici, nous avons inventé un nouvel algorithme pour résoudre le problème », explique Zha. L’agent a pu apprendre minute par minute grâce à la pénétration des voisins en hyperespace, une amélioration que l’équipe TELUS a réalisée sur les algorithmes manuels. L’innovation permettait à l’agent de tenir compte de variables qui changeaient lentement, comme la montée progressive de la température de la pièce. L’article de recherche de Zha sur l’algorithme est actuellement en cours d’examen par le corps professoral de Vector.
Les premiers résultats prometteurs ont également suscité l’intérêt pour l’application de l’agent dans d’autres systèmes TELUS réels ― des stations de base des tours cellulaires à l’agriculture ― où la température est essentielle à la performance, et où les améliorations d’efficacité énergétique peuvent se traduire par durabilité et économies à grande échelle. Jaime Tatis, vice-président de la stratégie et de l’habilitation des données, déclare : « Nous sommes impatients de voir ce qui va venir et de voir quels autres problèmes nous pourrons résoudre avec l’apprentissage par renforcement maintenant que nous avons pu réaliser cette preuve de concept. »
Enfin, il y a la profonde satisfaction qui vient avec l’atteinte d’un objectif technique exigeant. « Au final, nous avons un sentiment d’accomplissement d’avoir fait quelque chose de difficile, tant du côté de la recherche que de l’industrie », dit Chiu. « Cela a vraiment démontré que TELUS est ouvert à l’innovation responsable et au travail d’équipe. »