12 oct. 2022

Les blogs de l'ingénierie de l'IA de Vector offrent un aperçu de l'apprentissage automatique appliqué et du travail d'ingénierie réalisé par l'équipe de l'ingénierie de l'IA. Ils sont rédigés par le personnel de l'ingénierie de l'IA en collaboration avec des étudiants, des post-doctorants, des membres du corps enseignant et des affiliés de l'Institut Vector. Ainsi que des partenaires industriels. 

John Jewell, Shihao Ma, Deval Pandya
Papier
Github

L'imagerie satellitaire à haute résolution devenant de plus en plus disponible dans les domaines public et privé, plusieurs applications bénéfiques qui exploitent ces données sont rendues possibles. L'extraction de l'empreinte des bâtiments dans l'imagerie satellitaire est une composante essentielle de nombreuses applications en aval de l'imagerie satellitaire, telles que l'aide humanitaire et la réponse aux catastrophes. 

Ce travail propose une étude comparative des méthodes basées sur l'apprentissage profond pour l'extraction de l'empreinte des bâtiments dans l'imagerie satellite.

Qu'est-ce que la segmentation sémantique ? 

La segmentation sémantique est une sous-classe de la segmentation d'images où les pixels sont regroupés en fonction de leur classe. Elle joue un rôle essentiel dans un large éventail d'applications telles que la conduite autonome (par exemple, les voitures ou les trains autonomes), l'analyse géospatiale (par exemple, l'extraction de l'empreinte d'un bâtiment) et la segmentation d'images médicales (par exemple, la découverte de marqueurs biomédicaux). L'objectif de la segmentation sémantique est d'étiqueter chaque pixel d'une image avec une classe, en partitionnant efficacement les pixels de l'image en groupes basés sur le type d'objet. En raison de la nature hautement dimensionnelle de l'espace d'entrée et de sortie, la segmentation sémantique a traditionnellement été une tâche très difficile en vision par ordinateur [2]. Heureusement, de récentes approches d'apprentissage profond supervisé ont permis d'obtenir de solides performances de segmentation sémantique sur une variété de repères difficiles [3]. Ces approches utilisent de grands ensembles de données d'images avec des étiquettes pixellisées correspondantes pour former des réseaux neuronaux en mettant à jour de manière itérative les paramètres du modèle afin de minimiser une perte différentiable qui caractérise la différence entre les prédictions et les étiquettes. Lors de l'inférence, le réseau reçoit de nouveaux échantillons et produit une carte de segmentation avec la même résolution spatiale que l'image d'entrée, qui encode l'étiquette de chaque pixel. 

Extraction de l'empreinte du bâtiment

Inspirés par les performances impressionnantes des modèles de segmentation sémantique, des efforts importants ont été faits pour transférer le succès des méthodes de segmentation sémantique basées sur l'apprentissage profond à l'extraction d'empreintes de bâtiments. L'extraction d'empreintes de bâtiments est un cas particulier de segmentation sémantique qui consiste à segmenter les empreintes de bâtiments dans les images satellites. 

Ensemble de données

Le jeu de données SpaceNet Building Detection V2 [1] est utilisé pour évaluer les différentes approches dans cette étude. Ce jeu de données contient des images satellite haute résolution et les étiquettes correspondantes qui spécifient l'emplacement des empreintes de bâtiments. Le jeu de données comprend 302 701 étiquettes de bâtiment provenant de 10 593 images satellite multispectrales de Las Vegas, Paris, Shanghai et Khartoum. Les étiquettes sont binaires et indiquent si chaque pixel est un bâtiment ou un fond, comme on peut le voir sur la figure 1.

Méthodes explorées

Les quatre approches de segmentation sémantique qui ont été explorées sont : U-Net [3], U-Net++ [7], Fully Convolutional Networks (FCN) [5] et DeepLabv3 [10]. Ces architectures sont représentées sur la figure 2. Pour FCN et DeepLabv3, deux variantes de l'architecture avec des dorsales différentes (Resnet-50 et Resnet-100) sont incluses. Ainsi, au total, six approches sont évaluées sur la tâche d'extraction de l'empreinte des bâtiments dans les images aériennes.

U-Net : U-Net est une architecture d'encodeur-décodeur pour la segmentation sémantique. L'encodeur consiste en un chemin de contraction pour capturer le contexte et le décodeur consiste en un chemin d'expansion qui permet une localisation précise [3]. Les connexions de saut copient les cartes de caractéristiques des couches de l'encodeur vers le décodeur au même niveau de la hiérarchie de résolution spatiale. Cela permet le flux d'informations de haut niveau qui peuvent être perdues dans la sortie de faible dimension de l'encodeur [3].

U-Net++ : U-Net++ est une architecture d'encodage-décodage pour la segmentation sémantique qui s'appuie sur U-Net en reliant l'encodeur et le décodeur par une série de chemins de saut denses et imbriqués. Les chemins de saut redessinés visent à réduire l'écart sémantique entre les cartes de caractéristiques des sous-réseaux de l'encodeur et du décodeur [7]. Par rapport à l'architecture U-Net, U-Net++ possède non seulement des connexions directes ou sautées entre les couches de sous-échantillonnage et les couches de sur-échantillonnage, mais aussi des connexions convolutionnelles, qui peuvent transmettre davantage de caractéristiques aux couches de sur-échantillonnage.

FCN : Le FCN fait correspondre des images d'entrée de taille arbitraire à des cartes sémantiques prédites en utilisant uniquement des couches convolutives [5]. Des couches de sur-échantillonnage dans le réseau sont utilisées pour faire des prédictions par pixel en augmentant la résolution spatiale des caractéristiques générées par l'épine dorsale du réseau à la hauteur et la largeur de la sortie. Une fois l'échantillonnage augmenté, les informations sémantiques des cartes de caractéristiques à basse résolution sont combinées aux informations d'apparence des cartes de caractéristiques à haute résolution pour produire des segmentations précises. Un FCN avec un backbone Resnet-50 (FCN-50) et un backbone Resnet-101 (FCN-101) sont évalués dans la section expériences. Les dorsales sont pré-entraînées à l'aide du jeu de données de segmentation sémantique COCO train2017 [22] et affinées pour la tâche d'extraction d'empreintes de bâtiments.

DeepLabv3 : DeepLabv3 est une architecture d'encodeur-décodeur pour la segmentation sémantique qui exploite des filtres convolutifs dilatés pour augmenter le champ réceptif du réseau et éviter un sous-échantillonnage excessif [10]. Un module de mise en commun des pyramides spatiales est utilisé pour capturer le contexte à plusieurs résolutions, ce qui est utile pour localiser des objets de différentes tailles. Les couches convolutionnelles standard sont décomposées en convolutions séparables en profondeur, puis en convolutions ponctuelles. Cela réduit considérablement les opérations en virgule flottante par couche convolutionnelle tout en maintenant l'expressivité du réseau. Les deux variantes de DeepLabv3, avec un backbone Resnet-50 (DLV3-50) et un backbone Resnet-101 (DLV3-101) sont évaluées dans la section expériences. Les dorsales sont pré-entraînées à l'aide du jeu de données de segmentation sémantique COCO train2017 [22] et affinées pour la tâche d'extraction d'empreintes de bâtiments.

Résultats

L'intersection sur l'union, telle qu'illustrée à la figure 3, est une mesure d'évaluation utilisée pour mesurer la précision d'un détecteur d'objets sur un ensemble de données particulier. 

En examinant cette équation, vous pouvez voir que le rapport Intersection sur Union est simplement un ratio. Au numérateur, nous calculons la zone de chevauchement entre la boîte englobante prédite et la boîte englobante de la vérité du sol. Le dénominateur est la zone d'union, ou plus simplement, la zone englobée à la fois par le rectangle de délimitation prédit et le rectangle de délimitation de la vérité du sol. En divisant la zone de chevauchement par la zone d'union, on obtient notre score final - l'Intersection sur Union (IoU).

L'IoU de chaque méthode sur l'ensemble de test est indiqué dans le tableau 1. DLV3-101 obtient les meilleures performances avec un IoU de 0,7734, suivi de près par DLV3-50, FCN-50 et FCN-101. U-Net et U-Net++ sont comparativement moins performants avec un IoU de 0,5644 et 0,6554, respectivement. L'écart de performance peut être attribué au fait que FCN-50, FCN-101, DLV3-50 et DLV3-100 bénéficient du pré-entraînement alors que U-Net et UNet++ n'en bénéficient pas. Cet écart de performance est également apparent dans la figure 4 qui montre la perte de formation et de validation de chaque méthode à travers les époques. Les méthodes qui tirent parti du pré-entraînement sont en mesure d'obtenir de meilleures performances sur les ensembles de formation et de validation dès le début de la formation. La perte de validation commence à atteindre un plateau après seulement quelques époques, ce qui suggère que la formation est terminée et qu'elle doit être arrêtée rapidement pour éviter un surajustement. Par contre, U-Net et U-Net++ ont des pertes de formation et de validation qui diminuent constamment au cours de la formation. Cela souligne le fait que les modèles qui tirent parti de la préformation convergent plus rapidement vers l'ensemble optimal de paramètres, en plus d'offrir de meilleures performances.

Modèle IoU
U-Net 0.5664
U-Net++ 0.6554
FCN-50 0.7455
FCN-101 0.7472
DLV3-50 0.7612
DLV3-101 0.7734

Tableau 1 : Score IoU sur l'ensemble de test pour chaque approche.

Les résultats qualitatifs sont disponibles dans la figure 5, qui montre un exemple d'image d'entrée, l'étiquette de vérité terrain et la carte sémantique prédite pour chaque méthode. La qualité de la prédiction des méthodes est parallèle aux résultats quantitatifs, mais les performances sont impressionnantes dans tous les domaines. Les méthodes sont capables de générer des cartes sémantiques précises dans des scènes densément peuplées d'empreintes de bâtiments. De plus, les cartes sémantiques prédites dans les scènes peu peuplées d'empreintes de bâtiments sont résistantes aux faux positifs, même dans les cas où des routes, des parkings ou d'autres structures sont présents. Une analyse préliminaire de l'importance de l'architecture du modèle conditionnée par le pré-entraînement donne des résultats intéressants. Les performances des méthodes qui tirent parti de la préformation sont similaires, même pour des architectures et des dorsales différentes. À l'inverse, si l'on considère les performances des méthodes qui n'exploitent pas le pré-entraînement, U-Net++ surpasse largement U-Net. Bien que cela nécessite d'autres expériences pour être validé, une hypothèse est que l'architecture du modèle devient moins pertinente lorsque la quantité de pré-entraînement augmente.


Conclusion 

Dans cette étude, nous avons entraîné et évalué plusieurs modèles de segmentation sémantique de pointe en utilisant le jeu de données SpaceNet, notamment U-Net, UNet++, FCN et DeepLabv3. Nos résultats ont montré que DeepLabv3 avec un backbone Resnet-101 est l'approche la plus précise pour l'extraction d'empreintes de bâtiments parmi les modèles que nous avons explorés. Les modèles qui tirent parti du pré-entraînement (c'est-à-dire FCN-50, FCN-101, DLV3-50 et DLV3-101) atteignent une plus grande précision et nécessitent un entraînement minimal par rapport aux modèles sans pré-entraînement (c'est-à-dire U-Net et UNet++). Cette étude implique qu'il est approprié d'appliquer l'apprentissage par transfert pour la tâche d'extraction de l'empreinte des bâtiments à l'aide d'images satellite.

Ressources

[1] Un ensemble de données de télédétection et une série de défis.

[2] Segmentation d'images à l'aide de l'apprentissage profond : Une étude

[3] U-net : Réseaux convolutifs pour la segmentation d'images biomédicales.

[5] Réseaux entièrement convolutifs pour la segmentation sémantique.

[7] Unet++ : Une architecture u-net imbriquée pour la segmentation d'images médicales

[10] Repenser la convolution astrale pour la segmentation sémantique des images.

[12] Apprentissage résiduel profond pour la reconnaissance d'images.

[15] Réseaux neuronaux convolutifs entièrement résiduels pour la segmentation d'images aériennes.

[22] Microsoft coco : Objets communs en contexte.

Défilement vers le haut