Apprentissage profond pour l'extraction de l'empreinte des bâtiments dans l'imagerie aérienne

12 octobre 2022

Les blogs de l'équipe d'ingénierie de l'IA de Vector offrent un aperçu de l'apprentissage automatique appliqué et des travaux d'ingénierie réalisés par l'équipe d'ingénierie de l'IA. Ils sont rédigés par le personnel de l'ingénierie de l'IA en collaboration avec les étudiants de l'Institut Vector, les post-doctorants, les membres de la faculté et les affiliés. Ainsi qu'avec des partenaires de l'industrie.

Les contributeurs de Vector comprennent : John Jewell, Shihao Ma, Deval Pandya

Access the paper

Access the GitHub

L'imagerie satellitaire à haute résolution étant de plus en plus disponible dans les domaines public et privé, plusieurs applications bénéfiques tirant parti de ces données sont rendues possibles. L'extraction des empreintes de bâtiments dans l'imagerie satellitaire est un élément essentiel de nombreuses applications en aval de l'imagerie satellitaire, telles que l'aide humanitaire et les interventions en cas de catastrophe.

Ce travail propose une étude comparative des méthodes basées sur l'apprentissage profond pour l'extraction de l'empreinte des bâtiments dans l'imagerie satellite.

Qu'est-ce que la segmentation sémantique ?

La segmentation sémantique est une sous-classe de la segmentation d'images dans laquelle les pixels sont regroupés en fonction de leur classe. Elle joue un rôle essentiel dans un large éventail d'applications telles que la conduite autonome (par exemple, les voitures ou les trains autonomes), l'analyse géospatiale (par exemple, l'extraction de l'empreinte des bâtiments) et la segmentation des images médicales (par exemple, la découverte de marqueurs biomédicaux). L'objectif de la segmentation sémantique est d'étiqueter chaque pixel d'une image avec une classe, partitionnant ainsi les pixels de l'image en groupes basés sur le type d'objet. En raison de la nature hautement dimensionnelle de l'espace d'entrée et de sortie, la segmentation sémantique est traditionnellement une tâche très difficile en vision par ordinateur [2]. Heureusement, de récentes approches d'apprentissage profond supervisé ont permis d'obtenir des performances robustes en matière de segmentation sémantique sur une variété de points de référence difficiles [3]. Ces approches utilisent de grands ensembles de données d'images avec des étiquettes pixellisées correspondantes pour former des réseaux neuronaux en mettant à jour de manière itérative les paramètres du modèle afin de minimiser une perte différentiable qui caractérise la différence entre les prédictions et les étiquettes. Lors de l'inférence, le réseau est alimenté par de nouveaux échantillons et produit une carte de segmentation avec la même résolution spatiale que l'image d'entrée, qui code l'étiquette de chaque pixel.

Extraction de l'empreinte du bâtiment

Inspirés par les performances impressionnantes des modèles de segmentation sémantique, des efforts importants ont été faits pour transférer le succès des méthodes de segmentation sémantique basées sur l'apprentissage profond à l'extraction d'empreintes de bâtiments. L'extraction d'empreintes de bâtiments est un cas particulier de segmentation sémantique qui consiste à segmenter les empreintes de bâtiments dans des images satellites.

Ensemble de données

L'ensemble de données SpaceNet Building Detection V2 [1] est utilisé pour comparer les différentes approches dans cette étude. Cet ensemble de données contient des images satellite à haute résolution et les étiquettes correspondantes qui spécifient l'emplacement des empreintes de bâtiments. L'ensemble de données comprend 302 701 étiquettes de bâtiments provenant de 10 593 images satellites multispectrales de Las Vegas, Paris, Shanghai et Khartoum. Les étiquettes sont binaires et indiquent si chaque pixel est un bâtiment ou un arrière-plan, comme le montre la figure 1.

Méthodes explorées

Les quatre approches de la segmentation sémantique qui ont été explorées sont les suivantes : U-Net [3], U-Net++ [7], Fully Convolutional Networks (FCN) [5] et DeepLabv3 [10]. Ces architectures sont présentées à la figure 2. Pour FCN et DeepLabv3, deux variantes de l'architecture avec des backbones différents (Resnet-50 et Resnet-100) sont incluses. Au total, six approches sont donc comparées pour l'extraction de l'empreinte des bâtiments dans les images aériennes.

U-Net : U-Net est une architecture codeur-décodeur pour la segmentation sémantique. Le codeur se compose d'un chemin de contraction pour capturer le contexte et le décodeur se compose d'un chemin d'expansion qui permet une localisation précise [3]. Les connexions de saut copient les cartes de caractéristiques du codeur vers les couches du décodeur au même niveau de la hiérarchie de résolution spatiale. Cela permet le flux d'informations de haut niveau qui peuvent être perdues dans la sortie de basse dimension du codeur [3].

U-Net++ : U-Net++ est une architecture codeur-décodeur pour la segmentation sémantique qui s'appuie sur U-Net en reliant le codeur et le décodeur par une série de chemins de saut imbriqués et denses. La nouvelle conception des chemins de saut vise à réduire l'écart sémantique entre les cartes de caractéristiques des sous-réseaux de l'encodeur et du décodeur [7]. Par rapport à l'architecture U-Net, U-Net++ dispose non seulement de connexions directes ou sautées entre les couches d'échantillonnage inférieur et les couches d'échantillonnage supérieur, mais aussi de connexions convolutives, qui peuvent transmettre davantage de caractéristiques aux couches d'échantillonnage supérieur.

FCN : Le FCN met en correspondance des images d'entrée de taille arbitraire avec des cartes sémantiques prédites en utilisant uniquement des couches convolutives [5]. Les couches d'échantillonnage ascendant dans le réseau sont utilisées pour faire des prédictions au pixel près en augmentant la résolution spatiale des caractéristiques générées par l'épine dorsale du réseau à la hauteur et à la largeur de l'image de sortie. Une fois l'échantillonnage effectué, les informations sémantiques des cartes de caractéristiques à faible résolution sont combinées aux informations d'apparence des cartes de caractéristiques à haute résolution pour produire des segmentations précises. Un FCN avec un backbone Resnet-50 (FCN-50) et un backbone Resnet-101 (FCN-101) sont comparés dans la section des expériences. Les backbones sont pré-entraînés à l'aide de l'ensemble de données de segmentation sémantique COCO train2017 [22] et affinés pour la tâche d'extraction de l'empreinte des bâtiments.

DeepLabv3 : DeepLabv3 est une architecture codeur-décodeur pour la segmentation sémantique qui utilise des filtres convolutionnels dilatés pour augmenter le champ réceptif du réseau et éviter un sous-échantillonnage excessif [10]. Un module de mise en commun des pyramides spatiales est utilisé pour capturer le contexte à plusieurs résolutions, ce qui est utile pour localiser des objets de différentes tailles. Les couches convolutives standard sont transformées en convolutions séparables en profondeur, suivies de convolutions ponctuelles. Cela permet de réduire considérablement les opérations en virgule flottante par couche convolutive tout en conservant l'expressivité du réseau. Les deux variantes de DeepLabv3, avec un backbone Resnet-50 (DLV3-50) et un backbone Resnet-101 (DLV3-101) sont évaluées dans la section des expériences. Les dorsales sont pré-entraînées à l'aide de l'ensemble de données de segmentation sémantique COCO train2017 [22] et affinées pour la tâche d'extraction de l'empreinte des bâtiments.

Résultats

L'intersection sur l'union, comme le montre la figure 3, est une mesure d'évaluation utilisée pour mesurer la précision d'un détecteur d'objets sur un ensemble de données particulier.

L'examen de cette équation permet de constater que la formule Intersection sur Union est tout simplement un ratio. Dans le numérateur, nous calculons la zone de chevauchement entre la boîte englobante prédite et la boîte englobante de vérité sur le terrain. Le dénominateur est la zone d'union, ou plus simplement, la zone englobée à la fois par la boîte de délimitation prédite et par la boîte de délimitation de vérité sur le terrain. En divisant la zone de chevauchement par la zone d'union, on obtient notre score final : l'intersection sur l'union (IoU).

L'indice d'utilité de chaque méthode sur l'ensemble de test est indiqué dans le tableau 1. DLV3-101 obtient la meilleure performance avec un indice d'utilité de 0,7734, suivi de près par DLV3-50, FCN-50 et FCN-101. U-Net et U-Net++ sont comparativement moins performants, avec un taux d'intérêt de 0,5644 et 0,6554, respectivement. L'écart de performance peut être attribué au fait que FCN-50, FCN-101, DLV3-50 et DLV3-100 bénéficient d'un pré-entraînement alors que U-Net et UNet++ n'en bénéficient pas. Cet écart de performance est également apparent dans la figure 4, qui montre la perte de formation et de validation de chaque méthode au fil des époques. Les méthodes qui tirent parti du pré-entraînement sont capables d'obtenir de meilleures performances sur l'ensemble d'entraînement et de validation dès le début de l'entraînement. La perte de validation commence à plafonner après seulement quelques époques, ce qui suggère que la formation est terminée et qu'elle devrait être interrompue rapidement pour éviter un surajustement. En revanche, U-Net et U-Net++ ont des pertes de formation et de validation qui diminuent constamment au cours de la formation. Cela souligne le fait que les modèles qui tirent parti du préapprentissage convergent plus rapidement vers l'ensemble optimal de paramètres, en plus d'offrir de meilleures performances.

Modèle	IoU
U-Net	0.5664
U-Net++	0.6554
FCN-50	0.7455
FCN-101	0.7472
DLV3-50	0.7612
DLV3-101	0.7734

Tableau 1 : Score IoU sur l'ensemble de test pour chaque approche.

Les résultats qualitatifs sont présentés dans la figure 5, qui montre un exemple d'image d'entrée, l'étiquette de vérité terrain et la carte sémantique prédite pour chaque méthode. La qualité des prédictions des méthodes est parallèle aux résultats quantitatifs, mais les performances sont impressionnantes dans tous les domaines. Les méthodes sont capables de générer des cartes sémantiques précises dans des scènes densément peuplées d'empreintes de bâtiments. En outre, les cartes sémantiques prédites dans les scènes peu peuplées d'empreintes de bâtiments sont résistantes aux faux positifs, même dans les cas où des routes, des parkings ou d'autres structures sont présents. Une analyse préliminaire de l'importance de l'architecture du modèle conditionnée par le pré-entraînement donne des résultats intéressants. Les performances des méthodes qui tirent parti du préapprentissage sont similaires, même pour des architectures et des réseaux de base différents. À l'inverse, si l'on considère les performances des méthodes qui n'exploitent pas le préapprentissage, U-Net++ surpasse largement U-Net. Bien que cela nécessite d'autres expériences pour être validé, une hypothèse est que l'architecture du modèle devient moins pertinente à mesure que la quantité de pré-entraînement augmente.

Conclusion

Dans cette étude, nous avons entraîné et évalué plusieurs modèles de segmentation sémantique de pointe à l'aide du jeu de données SpaceNet, notamment U-Net, UNet++, FCN et DeepLabv3. Nos résultats ont montré que DeepLabv3 avec un backbone Resnet-101 est l'approche la plus précise pour l'extraction de l'empreinte du bâtiment parmi les modèles que nous avons explorés. Les modèles qui tirent parti de la formation préalable (FCN-50, FCN-101, DLV3-50 et DLV3-101) sont plus précis et nécessitent une formation minimale par rapport aux modèles sans formation préalable (U-Net et UNet++). Cette étude montre qu'il est possible d'appliquer l'apprentissage par transfert à l'extraction des empreintes de bâtiments à l'aide d'images satellite.

Ressources

[1] Un ensemble de données de télédétection et une série de défis.

[2] Segmentation d'images à l'aide de l'apprentissage profond : Une étude

[3] U-net : Réseaux convolutifs pour la segmentation d'images biomédicales.

[5] Réseaux entièrement convolutifs pour la segmentation sémantique.

[7] Unet++ : Une architecture de réseaux en U imbriqués pour la segmentation d'images médicales

[10] Repenser la convolution atrous pour la segmentation sémantique des images.

[12] Apprentissage résiduel profond pour la reconnaissance d'images.

[15] Réseaux neuronaux convolutionnels entièrement résiduels pour la segmentation d'images aériennes.

[22] Microsoft coco : Common objects in context (objets communs en contexte).

Les contributeurs de Vector comprennent : John Jewell, Shihao Ma, Deval Pandya

Qu'est-ce que la segmentation sémantique ?

Extraction de l'empreinte du bâtiment

Ensemble de données

Méthodes explorées

Résultats

Conclusion

Ressources

En rapport :

Évaluation comparative de Grok-1 de xAI

Blogue de Vector Research : Votre réseau neuronal est-il en danger ? Le piège des optimiseurs de gradient adaptatifs

Vector Research Blog : Réseaux neuronaux structurés pour l'estimation de la densité et l'inférence causale