Le rapport technique sur la vision par ordinateur détaille des perspectives issues d’un projet collaboratif entre l’industrie et le milieu académique

26 mai 2022

Analyses du blogue 2022Recherche sur le traitement du langage naturel2022

26 mai 2022

L’équipe d’innovation industrielle de Vector a publié le rapport technique Vision par ordinateur : applications dans la fabrication, la chirurgie, le trafic, les satellites et la reconnaissance de données non étiquetées. Il détaille des expériences et des perspectives issues du projet de vision par ordinateur (CV), un projet collaboratif industriel-académique en plusieurs phases axé sur les avancées récentes en CV, l’un des plus grands et des domaines à la croissance la plus rapide de l’IA. 

Ce projet est le dernier exemple de Vector qui fait le lien entre le milieu universitaire et l’industrie, un élément clé du plan stratégique triennal de Vector. Avec la multiplication croissante des avancées en IA, l’équipe d’innovation industrielle de Vector mène des projets collaboratifs avec des partenaires corporatifs pour approfondir la compréhension des techniques d’IA de pointe, accélérer leur adoption et améliorer les compétences des praticiens de l’IA afin de réaliser le potentiel sociétal et économique de l’IA. Les projets passés incluent des travaux liés au traitement du langage naturel et au changement de jeux de données.

Le projet CV a réuni 15 chercheurs en Vector et 14 professionnels techniques issus de huit commanditaires industriels : EY, Intact, Linamar, PwC, RBC, Scotiabank et Thales. Ensemble, ils ont exploré de nouvelles applications des méthodes de vision par ordinateur pour aider les entreprises commanditaires à appliquer les dernières techniques de CV à leurs propres cas d’utilisation, tout en permettant aux chercheurs d’évaluer comment ces méthodes fonctionnaient dans le monde réel. 

Divisés en trois groupes de travail, les participants au projet ont conçu et réalisé des expériences utilisant trois approches de CV : segmentation par anomalie et sémantique, réseaux neuronaux à deux flux et apprentissage par transfert. Ces approches ont été appliquées dans les cinq cas d’utilisation suivants :

  • Détection d’anomalies dans la fabrication

Les participants ont exploré l’utilisation d’autoencodeurs entraînés sur le jeu de données MVTec Anomaly Detection afin d’optimiser la détection d’anomalies sur la chaîne de fabrication. 

  • Segmentation sémantique dans l’imagerie des obstacles aériens et routiers

Les participants ont appliqué des techniques de segmentation sémantique à deux sources d’images : des images satellites et des images de caméra embarquée. Les techniques de segmentation sémantique consistent à étiqueter chaque pixel d’une image avec une classe et à regrouper les pixels classifiés pour identifier les objets.

  • Détection automatisée des incidents de circulation avec des réseaux neuronaux à deux flux

Les participants ont appliqué des réseaux neuronaux à deux flux sur les images de la caméra embarquée pour détecter les images contenant des dangers, localiser ces dangers et les classer par type de danger. 

  • Identification des caractéristiques cliniquement pertinentes d’intérêt dans les interventions de cholécystectomie (chirurgie de la vésicule biliaire)

Les participants ont appliqué des techniques sémantiques et de segmentation d’instances pour permettre l’identification en temps réel de régions anatomiques spécifiques (par exemple, le canal biliaire commun, l’artère hépatique et la veine porte) qui sont des « zones interdites » pour les chirurgiens pratiquant la cholécystectomie laparoscopique (l’ablation chirurgicale de la vésicule biliaire). 

  • Apprentissage par transfert pour une classification et une détection vidéo efficaces

Les participants ont étudié l’efficacité de l’apprentissage par transfert pour détecter et classer des actions dans des vidéos contenant peu ou pas d’annotations. 

Les chercheurs et les commanditaires ont déjà constaté des résultats positifs. Le travail de Linamar a ouvert la voie à un système automatisé de détection des défauts des pièces, tandis que Thales a pu travailler sur la détection d’obstacles qui ressemble à celle effectuée sur leurs trains autonomes. 

Notamment, deux cas d’utilisation ont été présentés par les participants au projet lors de la conférence canadienne 2022 sur l’intelligence de localisation et l’extraction des connaissances (LIKE ME), à savoir « Une étude comparative des modèles de segmentation sémantique pour l’extraction d’empreintes de bâtiments à l’aide d’images satellites » et « Détection automatisée des incidents de circulation avec réseaux neuronaux à deux flux ». Le premier a été nommé pour le prix du « Meilleur article ». Des descriptions complètes des implémentations techniques et des résultats de chaque cas d’usage sont fournies dans le rapport et la boîte à outils du projet comprend divers ensembles de données ainsi que des outils utiles d’image/vidéo tels que des utilitaires d’augmentation et de visualisation de données fournis par l’équipe d’ingénierie Vector AI. Le code du projet est fourni dans le dépôt du projet Vision par ordinateur.

À lire aussi :

2026
Réflexions
Recherche
Recherche 2026

La nouvelle cartographie de l’invisible

Les femmes écrivent sur un tableau blanc. Il y a un homme à sa gauche qui regarde le tableau.
2025
Recherche
Recherche 2025

Les chercheurs en vecteurs font avancer les frontières de l’IA avec 80 articles au NeurIPS 2025

Logo vectoriel
2025
Réflexions

Une nouvelle étude révèle l’impact économique de 100 milliards de dollars de l’IA à travers le Canada, avec l’Ontario en tête