Pleins feux sur la santé à NeurIPS 2021

Déc 1, 2021
Par Ian Gormely

L'utilisation de l'IA pour améliorer la santé tout au long de la vie est l'un des quatre piliers du plan stratégique triennal de Vector. plan stratégique triennal de Vector.

Un article remarquable des membres de la faculté Vecteur Quaid Morris et Marzyeh Ghassemi présente une méthode de création de listes de contrôle prédictives, des aides à la décision courantes dans les milieux cliniques, à partir de données plutôt que d'utiliser l'expertise du domaine. La méthode proposée dans "Apprendre des listes de contrôle prédictives optimales," coécrit avec Haoran Zhang et Berk Ustun, permet de créer des listes de contrôle en quelques heures au lieu de plusieurs mois et offre une mesure concrète permettant d'évaluer les listes de contrôle.

Vous trouverez ci-dessous les résumés et les sommaires simplifiés de nombreux articles et ateliers acceptés par les membres de la faculté Vecteur.

Pour en savoir plus sur les travaux des chercheurs de Vector à la conférence NeurIPS de cette année ici.

Articles de conférence sur la santé rédigés par des membres de la faculté Vector et des affiliés de la faculté :

Caractérisation de la généralisation en cas de changements hors distribution dans l'apprentissage métrique profond

Timo MilbichKarsten Roth, Samarth Sinha, Ludwig Schmidt, Marzyeh Ghassemi, Björn Ommer

Le Deep Metric Learning (DML) vise à apprendre des espaces de représentation dans lesquels une métrique prédéfinie (par exemple la distance euclidienne) est liée à la similarité sémantique des données d'entrée d'une manière qui permet de regrouper des échantillons de classes inédites sur la base d'une similarité inhérente, même en cas d'incertitude sémantique.

les décalages hors distribution. Cependant, les repères standard utilisés pour évaluer les capacités de généralisation des différentes méthodes de LMD utilisent des divisions de train et de test fixes et donc des décalages de train à test fixes. Mais dans la pratique, le décalage au moment du test n'est pas connu a priori et, par conséquent, le paramètre d'évaluation par défaut est insuffisant pour évaluer l'utilité pratique des différentes méthodes de LMD. Pour y remédier, nous proposons un nouveau protocole permettant de générer des séquences de changements sémantiques de plus en plus difficiles pour des répartitions train-test données, afin d'évaluer les performances de généralisation des méthodes de LMD dans des scénarios plus réalistes avec différents changements train-test. Ensuite, nous fournissons une évaluation approfondie des approches conceptuelles de la LMD et de leurs avantages ou lacunes dans le cadre de décalages train-test de dureté variable, nous étudions les liens avec les métriques structurelles en tant qu'indicateurs potentiels de la performance de généralisation en aval et nous introduisons la LMD à quelques reprises en tant que remède peu coûteux pour une généralisation améliorée de manière cohérente dans le cadre de décalages OOD plus sévères.

Flux de processus latents continus

Ruizhi Deng, Marcus A. Brubaker, Greg Mori, Andreas M. Lehrmann

Dans de nombreuses disciplines, il existe des observations partielles de séries chronologiques continues à des dates arbitraires. L'ajustement de ce type de données à l'aide de modèles statistiques à dynamique continue est non seulement prometteur d'un point de vue intuitif, mais présente également des avantages pratiques, notamment la possibilité de générer des trajectoires continues et d'effectuer des inférences sur des dates inédites. Malgré les progrès passionnants réalisés dans ce domaine, les modèles existants sont toujours confrontés à des défis en termes de puissance de représentation et de qualité de leurs approximations variationnelles. Nous relevons ces défis avec les flux de processus latents continus (CLPF), une architecture de principe décodant les processus latents continus en processus observables continus à l'aide d'un flux de normalisation dépendant du temps et piloté par une équation différentielle stochastique. Pour optimiser notre modèle en utilisant le maximum de vraisemblance, nous proposons une nouvelle construction par morceaux d'un processus variationnel postérieur et dérivons la limite inférieure variationnelle correspondante en utilisant la repondération des trajectoires. Nos études d'ablation démontrent l'efficacité de nos contributions dans diverses tâches d'inférence sur des grilles temporelles irrégulières. Les comparaisons avec les lignes de base de l'état de l'art montrent la performance favorable de notre modèle sur des données de séries temporelles synthétiques et réelles.

Grad2Task : Amélioration de la classification de textes en quelques clics en utilisant des gradients pour la représentation des tâches

Jixuan Wang, Kuan-Chieh Wang, Frank Rudzicz, Michael Brudno

Le pré-entraînement de modèles de langage basés sur des transformateurs sur des textes non étiquetés, puis leur réglage fin sur des tâches cibles, a connu un succès considérable dans diverses tâches de TAL. Cependant, l'étape de réglage fin nécessite toujours une grande quantité de données étiquetées pour obtenir de bonnes performances. Dans ce travail, nous proposons une approche de méta-apprentissage pour la classification de textes peu nombreux, où seule une poignée d'exemples est donnée pour chaque classe. Pendant la formation, notre modèle apprend des connaissances préalables utiles à partir d'un ensemble de tâches diverses mais apparentées. Lors des tests, notre modèle utilise les connaissances acquises pour mieux résoudre diverses tâches en aval dans différents domaines. Nous utilisons les gradients comme caractéristiques pour représenter la tâche. Par rapport au réglage fin et à d'autres approches de méta-apprentissage, nous démontrons de meilleures performances sur un ensemble varié de tâches de classification de textes. Notre travail est une exploration inaugurale de l'utilisation de représentations de tâches basées sur les gradients pour le méta-apprentissage".

Apprentissage de listes de contrôle prédictives optimales.

Haoran Zhang, Quaid Morris, Berk Ustun, Maryzeh Ghassemi

Les listes de contrôle sont des outils d'aide à la décision couramment utilisés en milieu clinique. L'une des raisons de leur efficacité est leur simplicité : elles peuvent être remplies en quelques minutes, leur déploiement ne nécessite pas de matériel spécialisé (seulement une feuille imprimée) et elles sont facilement vérifiables, contrairement à d'autres modèles d'apprentissage automatique de type "boîte noire". Cependant, la grande majorité des listes de contrôle actuelles sont créées par des groupes d'experts qui utilisent leur expertise du domaine. Dans ce travail, nous proposons une méthode pour créer des listes de contrôle prédictives à partir de *données*. La création de listes de contrôle à partir de données nous permet d'avoir des critères d'évaluation mesurables (c'est-à-dire qu'il existe une mesure concrète que nous pouvons utiliser pour évaluer les listes de contrôle). Elle permet également un développement rapide du modèle - nous pouvons créer des listes de contrôle en quelques heures, au lieu d'attendre des mois le panel d'experts. Notre méthode formule la création de listes de contrôle comme un programme en nombres entiers qui minimise directement le taux d'erreur de la liste de contrôle. Notre méthode permet également d'inclure des contraintes personnalisables (par exemple, sur la forme, la performance ou l'équité de la liste de contrôle) et de déterminer si une liste de contrôle n'est pas un modèle approprié pour une tâche particulière. Nous constatons que notre méthode est plus performante que les méthodes de base existantes et nous présentons deux études de cas pour démontrer l'utilité pratique de notre méthode : 1) nous formons une liste de contrôle pour prédire la mortalité chez les patients en soins intensifs avec des contraintes d'équité de groupe et 2) nous apprenons une version abrégée de la liste de contrôle du syndrome de stress post-traumatique pour le DSM-5 qui est plus rapide à remplir tout en conservant sa précision.

Les impasses médicales et l'apprentissage de l'identification des états et des traitements à haut risque

Mehdi Fatemi (Microsoft Research), Taylor W. Killian (Université de Toronto/Institut Vector), Jayakumar Subramanian (Adobe Research - Inde), Marzyeh Ghassemi (Massachusetts Institute of Technology)

Les interactions patient-clinicien sont des processus intrinsèquement séquentiels dans lesquels les décisions thérapeutiques sont prises et adaptées en fonction de la compréhension qu'a un expert de l'évolution de l'état de santé d'un patient. Alors que le RL s'est avéré être un outil puissant pour l'apprentissage de stratégies de décision optimales - apprendre ce qu'il faut faire-les garanties de trouver ces solutions dépendent de la capacité à expérimenter des stratégies possibles pour collecter davantage de données. Ce type d'exploration n'est pas possible dans un contexte de soins de santé, ce qui rend impossible l'apprentissage de stratégies optimales. Dans ce travail, nous proposons d'inverser le paradigme RL dans des environnements où les données sont limitées et où la sécurité est essentielle, afin d'étudier les traitements à haut risque ainsi que l'état de santé des patients. Nous entraînons l'algorithme à identifier les traitements à éviter choisir afin d'éviter que le patient ne subisse des conséquences négatives irrémédiables sur sa santé, ce qui est défini comme une impasse médicale. Nous appliquons cette approche (Dead-end Discovery - DeD) à une tâche clinique réelle utilisant l'ensemble de données MIMIC-III, traitant des patients gravement malades ayant développé une septicémie. Nous établissons l'existence d'impasses et démontrons l'utilité de l'approche DeD, en émettant des avertissements qui indiquent lorsqu'un patient ou un traitement présente un risque élevé ou extrême de se retrouver dans une impasse et donc de mourir.

Ateliers sur la santé organisés par les membres de la faculté Vecteur :

Apprentissage automatique à partir de la vérité terrain : nouveaux ensembles de données d'imagerie médicale pour des problèmes médicaux non résolus

Katy Haynes, Ziad Obermeyer, Emma Pierson, Marzyeh Ghassemi, Matthew Lungren, Sendhil Mullainathan, Matthew McDermott

Cet atelier lancera une nouvelle plateforme pour les ensembles de données d'imagerie médicale ouverts. Étiquetées avec des résultats de vérité sur le terrain élaborés autour d'un ensemble de problèmes médicaux non résolus, ces données permettront d'approfondir les moyens par lesquels la ML peut contribuer à la santé et soulèveront un nouvel ensemble de défis techniques.

En rapport :

Les chercheurs de Vector s'attaquent aux défis de l'IA dans le monde réel à l'occasion de l'ICML 2025

L'écosystème de l'IA en Ontario : une croissance économique réelle grâce à un nombre record d'emplois et d'investissements privés

Transformer le soutien à la santé mentale des jeunes : Le modèle de réponse à la crise du FAIIR alimenté par l'IA