RBC se joint à Vector pour notre symposium sur la vision artificielle et explique comment le nouveau moteur d'IA de RBC peut reconnaître avec précision les limites d'un bâtiment sur une image satellite.

24 août 2022

Par Jonathan Woods
24 août 2022

L'équipe de Vector chargée de l'innovation industrielle a publié le document suivant Vision par ordinateur : Applications dans les domaines de la fabrication, de la chirurgie, de la circulation, des satellites et de la reconnaissance de données non étiquetées.. Ce rapport détaille les expériences et les conclusions du projet de vision par ordinateur, un projet de collaboration industrielle et universitaire en plusieurs phases axé sur les avancées récentes en vision par ordinateur, l'un des domaines les plus importants et à la croissance la plus rapide de l'IA.

Dans le cadre de ce projet, Arthur Berrill, directeur de la technologie et de l'innovation de RBC et technologue émérite, a pris la parole lors du récent symposium de Vector sur la vision par ordinateur au sujet du cas d'utilisation unique de RBC : l'application de la vision par ordinateur à l'imagerie satellitaire pour détecter les caractéristiques de géolocalisation et les suivre au fil du temps. 

C'est ce que fait le nouveau moteur de vision par ordinateur de RBC. Ce moteur est un composant du Cerveau RBC, la plateforme d'IA d'entreprise de la banque lancée pour permettre à chaque client de bénéficier d'un partenaire de confiance sur mesure, basé sur une compréhension approfondie, des expériences numériques personnalisées et des relations avec des conseillers experts. Le Cerveau RBC permet à la banque d'améliorer de façon itérative l'expérience de ses clients en leur offrant une compréhension de plus en plus précise de leurs demandes. 

Le moteur de vision par ordinateur de RBC Brain utilise un mélange de techniques d'apprentissage profond et d'intelligence de localisation. Il offre une nouvelle approche pour obtenir des prévisions précises et actualisées sur divers produits financiers, et permet d'effectuer ces prévisions automatiquement, à grande échelle et avec un niveau de détail surprenant. Le moteur est également remarquable pour une autre raison : son développement a nécessité de trouver une solution d'IA à un défi technique vieux de plusieurs décennies dans les domaines de l'imagerie satellitaire, de la vision par ordinateur et de l'intelligence de localisation - un "problème de classe mondiale", comme ils l'ont dit. 

Pour une institution financière aussi performante, il est essentiel de se tenir au courant de la valeur des actifs, des passifs et des investissements par le biais de la gestion des risques opérationnels et des prévisions économiques. Une nouvelle caractéristique du quartier pour une petite entreprise ou un propriétaire d'actifs personnels peut représenter une nouvelle valeur à laquelle les clients de RBC peuvent accéder par le biais de produits bancaires personnels et commerciaux. Il peut s'agir, par exemple, d'un parc récemment aménagé à proximité ou juste en face d'une unité commerciale. L'acquisition de ces connaissances de manière précise et automatique permet à RBC de proposer des produits financiers désormais pertinents et d'offrir à ses clients des prix encore plus compétitifs pour les produits existants. Leur offrir la possibilité d'utiliser cette nouvelle valeur dès qu'elle apparaît est une priorité pour la banque. Mais suivre les changements qui ont un impact sur les entreprises et les actifs individuels n'est pas une mince affaire. Le nombre d'actifs et d'entreprises est énorme, et les passer régulièrement en revue au moyen de processus manuels ou fastidieux et identifier les caractéristiques nouvelles et marquantes est un défi immense. La résolution de ce problème au moyen d'un processus automatisé constituerait une véritable avancée, permettant à la banque d'être proactive et précise quant aux offres qui seraient les plus utiles à tel ou tel client, et à quel moment. 

L'imagerie satellitaire - en particulier le radar à synthèse d'ouverture (SAR) et l'imagerie hyperspectrale - est la clé de cette percée. Ensemble, ces technologies peuvent capturer des images de bâtiments et de biens, pénétrer la couverture nuageuse et le feuillage des arbres, détecter la perméabilité du sol, montrer les volumes du couvert végétal et distinguer les différentes espèces de plantes. Cela signifie qu'il est possible de tirer de ces images des informations incroyablement détaillées sur un lieu et sa valeur, notamment sur le volume d'un bâtiment (grâce à des estimations dérivées de son contour par rapport au sol), sur la vulnérabilité d'un lieu aux catastrophes naturelles (grâce à l'analyse de la capacité du sol à absorber les précipitations) et même sur le potentiel de séquestration du carbone de la verdure sur un terrain (grâce à l'identification du type et du nombre d'arbres - une information qui pourrait permettre au propriétaire du bien de l'enregistrer en tant que puits de carbone et de s'engager dans l'échange de droits d'émission de carbone). 

Mais l'exploitation de ces informations pour proposer des solutions opportunes aux clients nécessite une capacité automatisée à détecter ces caractéristiques et à remarquer les changements d'une prise de vue à l'autre sur la même zone. 

C'est là qu'intervient le laboratoire de vision artificielle de RBC. en en particulier, ses travaux sur les modèles qui effectuent la segmentation des instances. Cette technique permet à un modèle d'identifier des objets dans une image et de reconnaître combien de fois ces objets apparaissent en classant chaque pixel dans une catégorie correspondante. En termes simples, si l'on présente une image de trois bâtiments, le modèle peut non seulement déterminer quels pixels appartiennent à la catégorie "bâtiment", mais aussi reconnaître que l'image contient trois instances distinctes de cette catégorie. Il s'agit d'une technique couramment utilisée pour analyser les images radiographiques, soutenir la conduite autonome et réaliser des cartes d'occupation des sols sur des images satellite.

Pour comprendre comment elle est utilisée dans le moteur de vision par ordinateur du cerveau, prenons l'exemple d'une image satellite d'un lotissement typique montrant des rangées de toits très denses vues d'en haut. Chaque toit bidimensionnel de cette image correspondrait à l'empreinte d'un bâtiment. Grâce à la segmentation des instances, le moteur peut identifier chaque empreinte et cartographier avec précision sa forme. Il peut ensuite

comparer ces empreintes avec celles d'images prises antérieurement pour repérer les changements susceptibles d'indiquer une nouvelle valeur. Si l'opération est bien menée, la banque réalise une percée en matière d'automatisation, ce qui lui permet de faire des recommandations rapides et précises, de proposer des offres et d'offrir divers autres services à ses clients, particuliers et entreprises. 

Mais il y a une raison pour laquelle cela n'a jamais été fait auparavant. Un obstacle technique épineux, le défi des objets adjacents, se dresse sur le chemin. défi des objets adjacents.

"Je peux vous dire, après 40 ans d'expérience dans le domaine de la géolocalisation, que ce problème particulier n'a pas été résolu", déclare M. Berrill, "et il s'agit d'un problème difficile". 

Le problème est que lorsque les objets d'une image ont très peu d'espace entre eux - comme les empreintes des bâtiments dans un lotissement dense - les modèles de segmentation des instances ont du mal à les reconnaître comme distincts. Au contraire, pour cet exemple, les modèles prédisent souvent que les bâtiments serrés sont attachés, alors qu'ils ne le sont pas. Voici pourquoi : dans la partie de l'image où les deux bâtiments sont proches l'un de l'autre, les pixels représentant les empreintes des bâtiments sont beaucoup plus nombreux que ceux représentant l'espace étroit qui les sépare. Lorsque le modèle classifie les pixels relativement peu nombreux représentant l'espace entre les bâtiments, il prédit souvent qu'ils appartiennent à la classe dominante de pixels dans cette zone - en d'autres termes, qu'ils représentent probablement aussi l'empreinte d'un bâtiment. Dans ces situations, les modèles ont du mal à "voir" les limites et la séparation - même si l'œil humain peut les distinguer - car leur prédiction est fortement influencée par les autres pixels de la zone. 

"Cela se produit souvent lorsque des pixels appartenant à plusieurs objets se trouvent à proximité les uns des autres et est amplifié par le problème de déséquilibre des données omniprésent dans les images aériennes et satellitaires de si grande taille ", explique Ehsan Amjadian, responsable de la science des données à la RBC et professeur adjoint d'informatique à l'Université de Waterloo. "Il y a beaucoup plus de pixels non délimités que de pixels délimités dans les images aériennes et satellitaires. 

Pour cette raison, le modèle peut prédire que deux bâtiments sont reliés d'une manière ou d'une autre, ce qui donne souvent l'impression d'une sorte de maison en rangée déformée, alors qu'en réalité ils sont distincts. Il est évident que la fiabilité du moteur de vision par ordinateur souffrirait si ce problème n'était pas résolu. 

Elham Ahmadi, responsable de la science des données à RBC et responsable technique de la pratique de vision par ordinateur de RBC. C'est le Dr Ahmadi qui a trouvé la solution. Cette métaphore n'est pas un hasard : l'idée d'une solution lui est venue alors qu'elle travaillait sur un problème totalement différent dans le domaine de la vision par ordinateur - plus précisément, en appliquant un autoencodeur variationnel pour identifier les défauts des écrous et des boulons sur une chaîne de fabrication. Ce travail a été réalisé dans le cadre d'un projet de l'Institut Vecteur axé sur la vision par ordinateur.

Ahmadi explique : "Le concept - l'autoencodeur variationnel - a été utilisé dans la détection d'anomalies avec une architecture différente et à d'autres fins dans le projet Vector. Mais cela a fait germer une idée : nous pouvons appliquer une nouvelle architecture et une nouvelle méthode basées sur les autoencodeurs variationnels pour résoudre le problème des images aériennes."

Le fonctionnement interne des autoencodeurs variationnels est complexe, mais il suffit de comprendre que leur conception les rend particulièrement performants pour la classification au niveau du pixel, même lorsqu'il y a très peu de pixels. L'idée novatrice du Dr Ahmadi était de modifier les autoencodeurs variationnels pour qu'ils parviennent à analyser avec précision les images satellites difficiles, une capacité essentielle pour le moteur de vision par ordinateur exclusif de RBC Brain. 

"À notre connaissance, c'est la première fois qu'une telle architecture corrective est utilisée pour résoudre le problème bien connu du déséquilibre des pixels dans les images satellite. Cette innovation a finalement résolu le problème", déclare le Dr Amjadian. Les limites supérieures obtenues sont illustrées dans la colonne la plus à droite de la figure 1 ci-dessus. 

M. Berrill partage cet avis : "Le fait de pouvoir le faire automatiquement est une grande avancée". 

Cette nouvelle approche est en instance de brevet, et cette nouvelle capacité - qui réunit l'IA, l'intelligence de localisation et l'imagerie satellitaire - a le potentiel de changer considérablement la vitesse et la précision de la commercialisation des produits par la banque et, à son tour, l'accès à la richesse par les propriétaires d'actifs et d'entreprises. 

Arthur Berrill, directeur de la technologie et de l'innovation de RBC, a commencé par poser une question : Pourquoi une banque s'intéresserait-elle au CV ? Avec cette innovation, la réponse devrait être claire. La question suivante est : quelle valeur peuvent-ils dégager, quelle propriété intellectuelle peuvent-ils créer et combien de clients peuvent-ils servir en s'engageant à rester à la pointe de la vision par ordinateur ? - c'est un point sur lequel ils travaillent dans le cadre de leur engagement qui comprend la collaboration avec des partenaires de l'écosystème comme Vector. collaboration avec des partenaires de l'écosystème comme Vector.

Les descriptions complètes des implémentations techniques et des résultats de chaque cas d'utilisation du symposium de vision par ordinateur de Vector sont fournies dans le rapport. La boîte à outils du projet comprend divers ensembles de données et des outils d'image/vidéo utiles tels que des utilitaires d'augmentation et de visualisation des données fournis par l'équipe d'ingénierie de l'IA de Vector. Le code du projet est fourni dans le Repo du projet de vision par ordinateur. 

En rapport :

Des protocoles normalisés sont essentiels pour un déploiement responsable des modèles linguistiques

Les inconnues connues : Geoff Pleiss, chercheur chez Vector, se penche sur l'incertitude pour rendre les modèles de ML plus précis.

Un homme regarde un tableau blanc sur lequel sont inscrites des formules en rouge.
Perspectives
Une IA digne de confiance

Comment mettre en œuvre des systèmes d'IA en toute sécurité