Le chercheur en vecteurs Bo Wang développe une méthode pour harmoniser les données médicales de plusieurs hôpitaux
9 mars 2020
9 mars 2020
Par Ian Gormely
Les données sont le carburant qui fait fonctionner les algorithmes d’IA. Mais de bonnes données utilisables ne sont pas toujours faciles à obtenir. C’est un problème que Bo Wang, membre du corps professoral de Vector, connaît trop bien.
Pour constituer un ensemble de données médicales (comme des images médicales ou des notes cliniques) suffisamment grand pour faire fonctionner un modèle d’apprentissage automatique, des chercheurs comme Wang doivent souvent combiner des données provenant de plusieurs hôpitaux. Plus précisément, Wang voulait appliquer le modèle de classification des images de cancer recueillies auprès d’un groupe d’hôpitaux aux images cardiaques. Mais les données que les hôpitaux collectent, ainsi que la manière dont ils les collectent et les trient, varient souvent d’un hôpital à l’autre, voire d’un département à l’autre. Les harmoniser serait une tâche difficile et chronophage. Il devait y avoir une meilleure façon.
Des méthodes pour cibler une adaptation de domaine source unique – c’est-à-dire transférer le modèle d’un hôpital à un autre – existaient déjà. Mais cela « néglige des scénarios plus pratiques où les données d’entraînement proviennent de multiples sources », dit-il. Il s’est demandé : « Peut-on forcer le modèle à être généralisable à différents domaines? »
« Moment Matching for Multi-source Domain Adaptation », coécrit par Xingchao Peng, Qinxun Bai, Xide Xia, Zijun Huang et Kate Saenko, et publié dans les Actes de la conférence internationale IEEE sur la vision par ordinateur en 2019, suggère que oui, ils le peuvent tout à fait. En fait, leur modèle – qu’ils appellent M3SDA – offre non seulement un moyen de rassembler l’information provenant de plusieurs sources en une seule, mais il annote aussi des images internet non étiquetées, ce qui donne un ensemble de données de 600 000 images réparties dans 345 catégories différentes. « Je crois que c’est la plus grande collection d’adaptations multi-ensembles de domaines », affirme Wang.
Et ça a déjà un impact. Lauren Erdman, doctorante à l’hôpital Vector et SickKids sous la supervision d’Anna Goldenberg, membre du corps professoral de Vector, est tombée sur cet article lors d’une revue de littérature. « J’ai tout de suite su que ce serait utile dans mon travail », dit-elle en qualifiant l’approche de Wang de « distincte » des autres. Erdman utilise actuellement l’algorithme de Wang dans deux études. Le premier utilise M3SDA pour harmoniser les différences dans les données créées par les échographes. L’autre ajuste l’algorithme — le résultat est une courbe à valeurs continues et l’alignement sera proportionnel à la similarité de la courbe — pour cartographier le son de l’uroflow (urination) afin d’étudier sa vitesse, son volume et sa durée.
« Nous avons développé une approche très simple qui peut faire un meilleur travail », dit Wang, notant que, bien que lui et son équipe aient testé le modèle en vision par ordinateur, ils voient aussi un « énorme potentiel » pour des applications médicales, en particulier l’analyse d’images médicales. « La plupart des projets actuels d’images médicales souffrent d’un manque d’images annotées et du fait que les modèles entraînés sur des données provenant d’un hôpital ne peuvent pas être directement applicables aux images de l’autre hôpital. Notre méthode a le potentiel de surmonter ces deux limites en même temps. »