Le rapport technique sur la vision par ordinateur présente les résultats d'un projet de collaboration entre l'industrie et le monde universitaire
26 mai 2022
26 mai 2022
26 mai 2022
L'équipe de Vector chargée de l'innovation industrielle a publié le document suivant Vision par ordinateur : Applications dans les domaines de la fabrication, de la chirurgie, de la circulation, des satellites et de la reconnaissance de données non étiquetées.. Ce rapport détaille les expériences et les conclusions du projet de vision par ordinateur, un projet de collaboration industrielle et universitaire en plusieurs phases axé sur les avancées récentes en vision par ordinateur, l'un des domaines les plus importants et à la croissance la plus rapide de l'IA.
Ce projet est le dernier exemple en date des efforts déployés par Vector pour combler le fossé entre le monde universitaire et l'industrie, un élément clé du plan stratégique de trois ans de Vector. plan stratégique triennal de Vector. Les progrès de l'IA proliférant à un rythme croissant, l'équipe Innovation industrielle de Vector s'engage dans des projets de collaboration avec des entreprises partenaires afin d'approfondir la compréhension des techniques d'IA de pointe, d'accélérer leur adoption et d'améliorer les compétences des praticiens de l'IA pour contribuer à la réalisation du potentiel sociétal et économique de l'IA. Parmi les projets antérieurs, citons les travaux portant sur le traitement du langage naturel et le déplacement des ensembles de données.
Le projet CV a rassemblé 15 chercheurs de Vector et 14 professionnels techniques de huit sponsors industriels : EY, Intact, Linamar, PwC, RBC, Banque Scotia et Thales. Ensemble, ils ont exploré de nouvelles applications des méthodes de vision par ordinateur afin d'aider les entreprises commanditaires à appliquer les dernières techniques de CV à leurs propres cas d'utilisation, tout en permettant aux chercheurs d'évaluer le fonctionnement de ces méthodes dans le monde réel.
Répartis en trois groupes de travail, les participants au projet ont conçu et réalisé des expériences à l'aide de trois approches de CV : la segmentation sémantique et par anomalie, les réseaux neuronaux à deux flux et l'apprentissage par transfert. Ces approches ont été appliquées dans les cinq cas d'utilisation suivants :
Les participants ont étudié l'utilisation d'autoencodeurs formés sur l'ensemble de données MVTec Anomaly Detection afin d'optimiser la détection d'anomalies sur la chaîne de fabrication.
Les participants ont appliqué des techniques de segmentation sémantique à deux sources d'images : l'imagerie satellite et les séquences de caméras de surveillance. Les techniques de segmentation sémantique consistent à attribuer une classe à chaque pixel d'une image et à regrouper les pixels classés afin d'identifier des objets.
Les participants ont appliqué des réseaux neuronaux à deux flux à des séquences de caméras de surveillance pour détecter les images contenant des dangers, localiser ces dangers et les classer par type de danger.
Les participants ont appliqué des techniques de segmentation sémantique et d'instance pour permettre l'identification en temps réel de régions anatomiques spécifiques (par exemple, le canal cholédoque, l'artère hépatique et la veine porte) qui sont des "zones interdites" pour les chirurgiens pratiquant la cholécystectomie laparoscopique (l'ablation chirurgicale de la vésicule biliaire).
Les participants ont étudié l'efficacité de l'apprentissage par transfert pour la détection et la classification d'actions dans des vidéos contenant peu ou pas d'annotations.
Les chercheurs et les sponsors ont ont déjà constaté des résultats positifs. Les travaux de Linamar ont ouvert la voie à un système automatisé de détection des défauts des pièces, tandis que Thales a pu travailler sur la détection des obstacles, en parallèle avec les travaux effectués sur leurs trains autonomes.
Notamment, deux cas d'utilisation ont été présentés par des participants au projet lors de la conférence Location Intelligence and Knowledge Extraction 2022 Canada (LIKE ME), à savoir "A Comparative Study of Semantic Segmentation Models for Building Footprint Extraction Using Satellite Imagery" et "Automated Traffic Incident Detection with Two-stream Neural Networks" (détection automatisée d'incidents de la circulation à l'aide de réseaux neuronaux à deux flux). Le premier a été nominé pour le prix du "Meilleur article". Des descriptions complètes de la mise en œuvre technique et des résultats de chaque cas d'utilisation sont fournies dans le le rapport et dans la boîte à outils du projet comprend divers ensembles de données et des outils d'image/vidéo utiles tels que des utilitaires d'augmentation des données et de visualisation fournis par l'équipe d'ingénierie de Vector AI. Le code du projet est fourni dans le Repo du projet de vision par ordinateur.