RBC se joint à Vector pour notre symposium sur la vision par ordinateur et partage comment le nouveau moteur d’IA de RBC peut reconnaître avec précision les limites des bâtiments dans des images satellites
24 août 2022
24 août 2022
Par Jonathan Woods
24 août 2022
L’équipe d’innovation industrielle de Vector a publié le rapport technique Vision par ordinateur : applications dans la fabrication, la chirurgie, le trafic, les satellites et la reconnaissance de données non étiquetées. Il détaille des expériences et des perspectives issues du projet de vision par ordinateur (CV), un projet collaboratif industriel-académique en plusieurs phases axé sur les avancées récentes en CV, l’un des plus grands et des domaines à la croissance la plus rapide de l’IA.
Dans le cadre de ce projet, Arthur Berrill, CTO et technologue distingué pour l’innovation et la technologie de RBC, a pris la parole lors du récent symposium sur la vision par ordinateur (CV) de Vector au sujet du cas d’usage unique de RBC : l’application de la vision par ordinateur à l’imagerie satellite pour détecter les caractéristiques de géolocalisation et les suivre au fil du temps.
Cela est réalisé par le nouveau moteur de vision par ordinateur de RBC. Ce moteur fait partie de RBC Brain, la plateforme d’IA d’entreprise de la banque lancée pour offrir un partenaire de confiance et personnalisé pour chaque client, basé sur une compréhension approfondie, des expériences numériques personnalisées et des relations avec des conseillers experts. Le RBC Brain permet à la banque d’améliorer de façon itérative l’expérience des clients en fournissant des compréhensions de plus en plus précises de leurs demandes.
Le moteur de vision par ordinateur de RBC Brain utilise un mélange de techniques d’apprentissage profond et d’intelligence géographique. Il offre une approche novatrice pour obtenir des prédictions précises et à jour sur divers produits financiers, et permet de réaliser ces prévisions automatiquement, à grande échelle et avec un niveau de détail surprenant. Le moteur est aussi notable pour une autre raison : son développement a nécessité de trouver une solution d’IA à un défi technique vieux de plusieurs décennies en matière d’imagerie satellite, de vision par ordinateur et d’intelligence de localisation – un « problème de classe mondiale », comme ils l’ont dit.
Rester à jour sur la valeur des actifs, les passifs et les investissements grâce à la gestion des risques opérationnels et aux prévisions économiques est essentiel pour une institution financière aussi performante. Une nouvelle caractéristique de quartier pour une petite entreprise ou un propriétaire d’actifs personnels pourrait signifier une nouvelle valeur à laquelle les clients de RBC pourraient accéder via des produits bancaires personnels et commerciaux. Un exemple de cette caractéristique pourrait être un parc récemment aménagé à proximité ou juste en face d’une unité commerciale. Acquérir ces connaissances de façon précise et automatique permet à RBC d’offrir des produits financiers désormais pertinents, tout en offrant des prix encore plus compétitifs pour le produit existant à nos clients. Leur offrir la possibilité d’utiliser cette nouvelle valeur dès qu’elle apparaît est une priorité pour la banque. Mais suivre les changements qui touchent les entreprises et les actifs individuels est un défi de taille. Le nombre d’actifs et d’entreprises est énorme, et les examiner régulièrement par des processus manuels ou longs et identifier de nouvelles fonctionnalités importantes est un défi immense. Résoudre ce problème avec un processus automatisé serait une véritable avancée, permettant à la banque d’être proactive et précise quant aux offres les plus utiles à quels clients, et quand.
L’imagerie satellite – en particulier le radar à synthèse d’ouverture (SAR) et l’imagerie hyperspectrale – constituent un élément clé de cette percée. Ensemble, ces technologies peuvent capturer des images de bâtiments et d’actifs, pénétrer la couverture nuageuse et le feuillage des arbres, détecter la perméabilité du sol, montrer les volumes de la canopée des arbres et distinguer les espèces végétales. Cela signifie qu’on peut obtenir des informations incroyablement détaillées sur un emplacement et sa valeur à partir de ces images, y compris le volume d’un bâtiment (grâce à des estimations dérivées de son contour par rapport au sol), la vulnérabilité d’un lieu aux catastrophes naturelles (par analyse de la capacité du sol à absorber les précipitations), et même le potentiel de séquestration du carbone de la verdure sur un lot (par l’identification du type et du nombre d’arbres – un aperçu qui pourrait permettre au propriétaire de l’enregistrer comme puits de carbone et s’engageant dans le commerce du carbone).
Mais débloquer de telles informations pour fournir des solutions rapides aux clients nécessite une capacité automatisée pour détecter ces caractéristiques et repérer les changements d’un plan à l’autre sur la même zone.
C’est là que le laboratoire de vision par ordinateur de RBC intervient, et en particulier son travail sur des modèles qui effectuent la segmentation des instances. Cette technique permet à un modèle d’identifier des objets dans une image et de reconnaître combien de fois ces objets apparaissent en classant chaque pixel avec une catégorie correspondante. En termes simples, si l’on présente une image de trois bâtiments, le modèle peut non seulement déterminer quels pixels appartiennent à la catégorie « bâtiment », mais peut aussi reconnaître que l’image contient trois instances distinctes de cette catégorie. C’est une technique couramment utilisée pour analyser des images aux rayons X, soutenir la conduite autonome et réaliser une cartographie de l’utilisation des terres sur des images satellites.
Pour comprendre comment elle est utilisée dans le moteur de vision par ordinateur du cerveau, considérez une image satellite d’un lotissement typique montrant des rangées denses de toits vue d’en haut. Chaque toit bidimensionnel dans cette image correspondrait à une empreinte de bâtiment. Grâce à la segmentation des instances, le moteur peut identifier chaque empreinte et cartographier précisément sa forme. Il peut alors
Comparez ces empreintes avec celles des images prises plus tôt afin d’identifier des changements précis pouvant indiquer une nouvelle valeur. Bien réalisé, la banque réalise une percée en automatisation qui permet des recommandations, des offres et divers autres services rapides et précis à ses clients particuliers et commerciaux.
Mais il y a une raison pour laquelle cela n’a jamais été fait auparavant. Se mettre en travers du chemin est un obstacle technique épineux appelé le défi des objets adjacents.
« Je peux vous dire, après plus de 40 ans dans le domaine du renseignement de localisation, que ce problème particulier n’a pas été résolu, » dit Berrill, « et c’est un problème difficile. »
Le problème est que lorsque les objets dans une image ont très peu d’espace entre eux – comme les empreintes de bâtiment dans une subdivision dense – les modèles de segmentation d’instance ont du mal à les reconnaître comme séparés. Au lieu de cela, pour cet exemple, les modèles prédisent souvent que des bâtiments serrés sont attachés, alors qu’en réalité ce n’est pas le cas. Voici pourquoi : dans la partie de l’image où deux bâtiments sont proches, il y a beaucoup plus de pixels représentant les empreintes des bâtiments que l’espace étroit qui les sépare. Lorsque le modèle classe les rares pixels représentant l’espace entre les bâtiments, il prédit souvent qu’ils appartiennent à la classe dominante de pixels dans cette zone – autrement dit, qu’ils représentent probablement aussi une empreinte de bâtiment. Dans ces situations, les modèles ont du mal à « voir » les limites et la séparation – même si elles sont reconnaissables à l’œil humain – car leur prédiction est fortement influencée par les autres pixels de la zone.
« Cela se produit souvent lorsque des pixels appartenant à plusieurs objets se retrouvent à proximité les uns des autres et est amplifié par le problème de déséquilibre des données omniprésent dans ces grandes images aériennes et satellites », explique le Dr Ehsan Amjadian, chef du département de science des données à RBC et professeur adjoint d’informatique à l’Université de Waterloo. « Il y a beaucoup plus de pixels non frontaliers dans les images aériennes et satellites que les pixels de la frontière. »
À cause de cela, le modèle peut prédire que deux bâtiments sont attachés d’une manière ou d’une autre, souvent ressemblant à une sorte de maison en rangée déformée, alors qu’en réalité ils sont distincts. Évidemment, la fiabilité du moteur de vision par ordinateur en souffrirait si ce problème restait non résolu.

Voici le Dr Elham Ahmadi, responsable de la science des données à RBC et responsable technique de la pratique de vision par ordinateur de RBC. C’est le Dr Ahmadi qui a fait casser cette noix. Cette métaphore n’est pas un hasard : l’idée d’une solution lui est venue alors qu’elle travaillait sur un problème complètement différent dans le domaine de la vision par ordinateur ― plus précisément, en appliquant un autoencodeur variationnel pour identifier les défauts dans les écrous et boulons d’une chaîne de fabrication. Cela a été réalisé dans le cadre d’un projet du Vector Institute axé sur la vision par ordinateur.
Ahmadi explique : « Le concept – l’autoencodeur variationnel – a été utilisé dans la détection d’anomalies avec une architecture différente et pour un autre objectif dans le projet Vector. Mais cela a suscité une idée : nous pouvons appliquer une nouvelle architecture et une nouvelle méthode basée sur des encodeurs automatiques variationnels pour résoudre le problème des images aériennes. »
Le fonctionnement interne des encodeurs automatiques variationnels est complexe, mais il suffit de comprendre que leur conception les rend particulièrement efficaces pour la classification au niveau des pixels, même lorsqu’il y a très peu de pixels. L’idée novatrice du Dr Ahmadi était de modifier les autoencodeurs variationnels pour réussir à analyser avec précision des images satellites complexes, une capacité essentielle pour le moteur de vision par ordinateur propriétaire de RBC Brain.
« À notre connaissance, c’est la première fois qu’une telle architecture corrective est utilisée pour s’attaquer au problème bien connu du déséquilibre des pixels dans les images satellites. Cette innovation a enfin résolu le problème », explique le Dr Amjadian. Les limites supérieures résultantes sont montrées dans la colonne la plus à droite de la Figure 1 ci-dessus.
Berrill est d’accord : « Pouvoir faire cela automatiquement est une grande avancée. »
Cette nouvelle approche est en instance de brevet, et cette nouvelle capacité – qui réunit l’IA, l’intelligence de localisation et l’imagerie satellite – a le potentiel de changer de manière significative la rapidité et la précision du marketing des produits par la banque et, par conséquent, l’accès à la richesse pour les propriétaires d’actifs et d’entreprises.
Arthur Berrill, CTO de l’innovation et de la technologie de RBC, a commencé par une question : pourquoi une banque s’intéresserait-elle au CV? Avec cette innovation, la réponse devrait être claire. La question suivante est : quelle valeur peuvent-ils débloquer, combien de propriété intellectuelle peuvent-ils créer, et combien de clients peuvent-ils servir avec l’engagement de rester à la pointe de la vision par ordinateur ― c’est quelque chose sur lequel ils travaillent dans le cadre de leur engagement qui inclut une collaboration avec des partenaires de l’écosystème comme Vector.
Des descriptions complètes des implémentations techniques et des résultats de chaque cas d’utilisation du Symposium sur la vision par ordinateur de Vector sont fournies dans le rapport et la boîte à outils du projet comprend divers ensembles de données ainsi que des outils utiles d’image/vidéo tels que des utilitaires d’augmentation et de visualisation de données fournis par l’équipe d’ingénierie Vector AI. Le code du projet est fourni dans le dépôt du projet Vision par ordinateur.