Un agent d'intelligence artificielle de TELUS aborde le développement durable comme un jeu d'échecs
17 février 2021
17 février 2021
17 février 2021
Par Jonathan Woods
Dans ce petit centre de données, tout est livré à l'unité. Il y a un serveur, une unité de refroidissement et une règle cardinale : rester dans les limites des directives thermiques. C'est dans ce contexte que TELUS a lancé un agent d'intelligence artificielle chargé de refroidir la pièce le plus efficacement possible et lui a donné virtuellement carte blanche pour trouver le moyen de le faire.
Il s'agissait du premier essai en conditions réelles du projet EOS (Energy Optimization System Project) de TELUS, un projet pilote dans lequel un agent d'apprentissage par renforcement prend le contrôle d'un système physique réel afin d'apprendre à le faire fonctionner au mieux. L'excitation était à son comble. Deux mois auparavant, ce même agent avait montré qu'il pouvait augmenter l'efficacité énergétique de 2 à 15 % dans un simulateur, en grande partie grâce à une série de ses propres innovations ingénieuses.
EOS est né dans le cadre du projet Model-Based Reinforcement Learning (MBRL) de l'Institut Vector - l'initiative d'IA pour le bien gérée par l'équipe d'innovation industrielle de Vector - et a été développé par TELUS pour s'aligner sur son objectif de durabilité visant à réduire son intensité énergétique de 50 % entre 2020 et 2030.
"L'apprentissage par renforcement est l'une des trois principales catégories d'IA. Les autres sont l'apprentissage supervisé et l'apprentissage non supervisé ", explique Vincent Zha, scientifique principal en données au sein de l'équipe d'analyse avancée et d'IA de TELUS. "Mais l'apprentissage par renforcement est un peu différent. Il n'a pas besoin d'autant de données d'entrée, et vous n'apprenez vraiment rien avant d'arriver à la fin de son processus."
Contrairement à l'apprentissage supervisé et non supervisé, un modèle d'apprentissage par renforcement n'est pas initialement formé sur des données pour apprendre à faire des prédictions précises. Au lieu de cela, il commence par un objectif et interagit ensuite avec un environnement, en tirant des leçons des conséquences de ses actions et en itérant vers l'optimisation. "L'apprentissage par renforcement consiste à prendre des mesures, et non pas seulement à faire des prédictions", explique Amir-Massoud Farahmand, membre de la faculté Vector, qui, avec Romina Abachi, chercheuse chez Vector, a donné des conseils aux participants du projet MBRL. "C'est pourquoi l'apprentissage par renforcement sera très utile pour les applications industrielles", ajoute M. Farahmand.
Une autre raison pour laquelle l'apprentissage par renforcement est particulièrement bien adapté aux systèmes du monde réel est qu'il tient compte des effets à long terme des décisions. Lorsqu'il réfléchit à l'action à entreprendre dans une situation donnée, un agent d'apprentissage par renforcement fait des prédictions sur les impacts immédiats des actions potentielles ainsi que sur les effets que chacune d'entre elles aura plus tard. Cela permet à l'agent de tenir compte de l'état actuel du système dans lequel il opère, tout en restant sur la bonne voie pour atteindre son objectif final de manière optimale. Ces caractéristiques - être orienté vers les objectifs et capable d'envisager l'avenir - sont la raison pour laquelle l'équipe a choisi d'utiliser l'apprentissage par renforcement pour ce projet pilote.
Avant de tester l'agent d'apprentissage par renforcement sur des systèmes réels, l'équipe l'a fait fonctionner sur un simulateur. Lors du test, l'agent a été chargé de contrôler l'unité de chauffage, de ventilation et de climatisation (CVC), qui dispose de deux méthodes pour refroidir la pièce : un compresseur d'air relativement énergivore et une fonction de "refroidissement libre" moins coûteuse - essentiellement de l'air extérieur qui est poussé dans la pièce. L'agent a également reçu les prévisions météorologiques du jour et une mise à jour minute par minute de la température de la pièce. Après chaque mise à jour, l'agent décidait d'utiliser le compresseur d'air, de recourir au free cooling ou de ne rien faire du tout. Il recalculait ensuite son plan d'action pour le reste de la journée, en tenant compte de ses nouvelles connaissances.
Les résultats ont étonné l'équipe, non seulement par la réduction de 2 à 15 % de la consommation d'énergie obtenue par l'agent, mais aussi par les nombreuses innovations qu'il avait concoctées pour y parvenir. Deux de ces innovations se sont distinguées.
Tout d'abord, l'agent a immédiatement adopté une approche non interventionniste, permettant à la température de la pièce de s'approcher le plus possible de la limite avant de la stabiliser. En règle générale, le programme de l'unité HVAC fait baisser la température de quatre degrés chaque fois qu'il se rapproche de la limite supérieure de la plage thermique. Cela permet de disposer d'un tampon suffisant pour tenir compte de l'ensemble des températures extérieures susceptibles d'affecter les conditions à l'intérieur du centre de données. L'agent a appris qu'il était plus efficace de laisser la température augmenter tout au long de la matinée jusqu'au seuil, puis de la gérer dynamiquement à ce niveau en utilisant des rafales rapides de compresseur d'air et de refroidissement libre en fonction des besoins. La logique est claire : pourquoi gaspiller de l'énergie en abaissant la température plus que nécessaire ? Tant que la température reste en dessous de la limite supérieure, que ce soit de 4° ou de 1°, l'agent reste dans le coup.
Une deuxième approche a été "une véritable innovation" de la part de l'agent, selon Zha. Vers cinq heures du matin, à peu près au moment où la température extérieure atteignait son niveau le plus bas de la journée, l'agent a commencé à faire souffler sur la pièce un froid gratuit, qu'il a fait fonctionner sans interruption jusqu'au milieu de l'après-midi. Au début, cela a semblé déconcertant. Le refroidissement gratuit n'est pas cher, mais il n'est pas gratuit. Pourquoi dépenser de l'énergie alors que la pièce était déjà au plus frais ?
La réponse se trouvait dans les prévisions météorologiques. Zha explique : "L'agent voit dans les prévisions météorologiques que la température de l'après-midi sera très élevée. Il détermine que c'est le meilleur moment pour faire fonctionner plus de free cooling afin de retarder l'utilisation du compresseur, car ce dernier est très coûteux."
L'agent fait un compromis. "C'est comme un bon joueur d'échecs", explique Zha. "Un bon joueur d'échecs fait parfois des sacrifices dans l'étape immédiate, mais il peut gagner plus 20 étapes plus tard. Sacrifier un peu maintenant permet d'éviter un coût important à l'avenir." L'équipe n'avait pas pensé que l'agent découvrirait cette approche. La programmation standard du chauffage, de la ventilation et de la climatisation ne prenait pas en compte les prévisions uniques du jour. Elle ne le pouvait pas. Mais l'agent l'avait compris.
"C'est la caractéristique de l'apprentissage par renforcement", explique M. Zha.
Deux mois plus tard, l'équipe TELUS s'est retrouvée dans cette petite pièce anodine pour tester l'agent sur un système CVC réel - et a vu les résultats simulés validés. Les prochaines étapes pour l'équipe consistent à étendre les tests à des sites plus vastes et plus complexes avant une éventuelle mise en œuvre dans l'ensemble des salles de données de TELUS.
Le projet pilote a permis à TELUS d'acquérir de nouvelles capacités et de nouvelles possibilités. L'organisation de l'exécution d'un projet pilote d'apprentissage par renforcement sur des systèmes physiques réels a montré qu'un échantillon représentatif de professionnels techniques et non techniques au sein de TELUS pouvait s'unir pour mettre en œuvre un projet d'IA sophistiqué.
"Une fois que nous avons dû toucher des systèmes physiques, il nous a fallu non seulement comprendre la théorie de l'apprentissage par renforcement et développer l'algorithme, mais aussi naviguer entre les différents intervenants et propriétaires du réseau pour avoir accès à cette pièce ", explique Ivey Chiu, scientifique principal en données au sein de Advanced Analytics & AI. Le projet a nécessité une étroite collaboration avec Dominic Dupuis, gestionnaire de la stratégie technologique des environnements essentiels à la mission de TELUS, Jonah Braverman, ingénieur en gestion de l'énergie, et Alexandre Guilbault, directeur de l'analytique et de l'intelligence artificielle, ainsi qu'avec des intervenants de l'exploitation du réseau, de l'exploitation des immeubles et du Bureau des données et de la confiance, qui ont tous dû comprendre le projet, y apporter leur expertise et l'approuver.
"Il s'agissait d'établir la confiance avec nous et d'être très transparent sur ce que nous essayions de faire ", explique M. Chiu. M. Chiu souligne également que cette approche interfonctionnelle et l'accent mis sur la confiance et la transparence reflètent l'engagement de TELUS à l'égard de l'IA responsable, qui oriente ses efforts pour accroître les capacités technologiques d'une manière qui apporte des avantages à la société.
En outre, l'équipe Advanced Analytics & AI de TELUS a produit une recherche originale. "Normalement, nous utilisons des algorithmes existants pour améliorer nos activités. Ici, nous avons inventé un nouvel algorithme pour résoudre le problème", explique M. Zha. L'agent a pu apprendre minute par minute grâce à la pénétration des voisins de l'hyperespace, une amélioration que l'équipe TELUS a apportée aux algorithmes classiques. Cette innovation a permis à l'agent de prendre en compte des variables qui changent lentement, comme l'augmentation progressive de la température de la pièce. L'article de recherche de M. Zha sur l'algorithme est actuellement examiné par la faculté Vector.
Les premiers résultats prometteurs ont également suscité l'intérêt pour l'application de l'agent dans d'autres systèmes réels de TELUS - des stations de base des tours de téléphonie cellulaire à l'agriculture - où la température est essentielle au rendement et où les améliorations de l'efficacité énergétique peuvent se traduire par une durabilité et des économies à l'échelle. Jaime Tatis, vice-président de Data Strategy & Enablement, déclare : "Nous sommes impatients de voir ce qui va suivre et de voir quels autres problèmes nous pouvons résoudre avec l'apprentissage par renforcement maintenant que nous avons été en mesure de réaliser cette preuve de concept."
Enfin, il y a la satisfaction profonde que procure la réalisation d'un objectif technique ambitieux. "En fin de compte, nous avons le sentiment d'avoir accompli quelque chose de difficile, tant du point de vue de la recherche que du point de vue de l'industrie", déclare M. Chiu. "Cela a vraiment montré que TELUS est ouverte à l'innovation responsable et au travail d'équipe.