La nouvelle cartographie de l'invisible
22 janvier 2026
22 janvier 2026
Par John Knechtel
Du télescope au bilan financier – un résumé de l'atelier « Foundation Models for Science » explique comment les scientifiques peuvent aider les entreprises à résoudre leurs problèmes de données les plus complexes et à développer une IA réellement efficace.
Par un mardi frais à Toronto, alors que le soleil de novembre filtrait à travers les lucarnes situées loin au-dessus, une salle comble s'est réunie au MaRS pour assister à l'atelier « Foundation Models for Science » (Modèles fondamentaux pour la science) organisé par le Vector Institute. Les astrophysiciens, biologistes et chimistes présents dans l'auditoire étaient là pour s'attaquer à un problème concret : comment faire en sorte que les machines comprennent des phénomènes que même les humains ont seulement récemment appris à percevoir.
Ces derniers temps, l'histoire publique de l'IA s'est concentrée sur des modèles, tels que GPT-4, qui sont entraînés sur l'ensemble de l'Internet ouvert afin d'imiter au mieux le langage humain. Mais dans les laboratoires où sont conçus les médicaments et dans les observatoires qui cartographient l'univers, Internet est en réalité un désert. Il est impossible de trouver la signature chimique d'un foie défaillant ou la distance d'une galaxie située à treize milliards d'années-lumière. Ces vérités sont découvertes lentement, au prix de millions de dollars et de décennies de travail.
Comme il se doit, cette journée a été consacrée à la création d'une IA qui fonctionne même lorsque les données sont rares, les enjeux importants et les sources déconnectées. Dans ce qui suit, nous examinerons trois défis récurrents dans ce domaine : le goulot d'étranglement de l'annotation, le déficit de confiance et le passage du laboratoire à la production.
Nolan Koblischke, doctorant en astrophysique à l'Université de Toronto, passe ses journées à chercher une aiguille galactique dans une botte de foin : des phénomènes célestes rares tels que les lentilles gravitationnelles, moments où la gravité d'une galaxie massive au premier plan agit comme une loupe cosmique, déformant la lumière d'un objet plus distant en un anneau lumineux. Mais en astronomie, le problème fondamental n'est pas le manque de données, mais un excès écrasant de données inappropriées. Ces lentilles sont les « joyaux rares » de la cosmologie, apparaissant peut-être dans une image sur dix mille prises par un télescope.
Traditionnellement, les trouver nécessitait un travail manuel titanesque. Des équipes de chercheurs s'asseyaient devant des écrans, faisant défiler des millions de taches presque identiques, les étiquetant une par une. Pour les dirigeants, le schéma est familier : vous disposez d'un énorme atout (une archive d'images, une flotte de capteurs, une décennie de scans), mais il est inutilisable car personne n'a eu le temps ou le budget nécessaire pour l'étiqueter à grande échelle.
L'équipe de Koblischke a décidé de supprimer ce goulot d'étranglement. Elle a alimenté GPT-4o-mini avec 140 millions d'images de galaxies et lui a demandé de fournir des descriptions textuelles simples. Ils ont ensuite utilisé une technique appelée « apprentissage contrastif » pour établir un pont entre le monde des pixels et celui du langage. Au lieu de traiter les images et le texte comme des silos distincts, ils ont formé un modèle de base (AION-1) pour les placer dans un espace sémantique commun où les images similaires se retrouvent proches les unes des autres, les mots et les phrases qui décrivent ces images sont regroupés dans le même voisinage, et les concepts sans rapport sont éloignés les uns des autres.
En termes simples, ils ont enseigné au modèle un dictionnaire bilingue qui associe des images à de la prose. Dans cet espace, une image d'une galaxie tourbillonnante et le mot « spirale » sont placés côte à côte ; une image d'une tache lisse et sans relief et l'expression « galaxie elliptique » forment un autre groupe.
Le résultat est ce que les chercheurs en IA appellent la recherche « zero-shot ». Comme le modèle comprend la relation entre les motifs visuels et le langage, les astronomes n'ont plus besoin de prédéfinir toutes les catégories qui les intéressent. Un chercheur peut saisir une toute nouvelle requête telle que « anneau bleu déformé » ou « arc mince en forme de croissant près d'un noyau lumineux », et le système affiche instantanément les images qui correspondent le mieux à cette description dans sa bibliothèque, même si personne n'a jamais formé de classificateur pour cette expression exacte.
Pour les entreprises, cela représente un changement fondamental. Au lieu d'investir des années dans l'étiquetage manuel et les taxonomies rigides, vous bénéficiez d'une interface ouverte en langage naturel pour vos données visuelles et transformez vos archives statiques en une ressource interactive et conversationnelle que les spécialistes peuvent interroger avec leurs propres mots.
Le même modèle s'étend à tous les secteurs qui croulent sous les images mais manquent cruellement d'étiquettes structurées. Dans le domaine de la santé, les radiologues pourraient rechercher des millions de scans à l'aide d'expressions telles que « petit nodule spiculé dans le poumon droit supérieur » sans avoir à pré-annoter chaque cas, car le modèle utilise un espace image-texte partagé pour trouver des correspondances proches. Dans le secteur manufacturier, les ingénieurs pourraient rechercher « fissure capillaire près de la soudure » ou « composant mal aligné sur le convoyeur deux » et demander au système de scanner toutes les gammes de produits et toutes les usines, simplement en décrivant le défaut qui les intéresse.
Les dirigeants peuvent tirer une leçon simple de ces travaux : vos données visuelles non étiquetées constituent l'un de vos actifs les plus sous-exploités. Au lieu de consacrer des ressources à des projets d'annotation exhaustifs, vous pouvez utiliser des modèles de base pour aligner les images et le langage dans un espace sémantique unique, fournir aux experts du domaine un champ de recherche qui utilise leur vocabulaire et débloquer des cas d'utilisation sans apprentissage (nouvelles requêtes, nouveaux produits, nouveaux types de défauts) sans avoir à reconstruire votre pile IA à chaque fois.
En d'autres termes, l'opportunité stratégique ne consiste pas seulement à voir davantage dans vos images, mais aussi à permettre à votre organisation de communiquer avec elles. Les gagnants ne seront pas les entreprises qui collectent le plus grand nombre d'images, mais celles qui mettent en place des systèmes permettant à un expert de saisir quelques mots et d'obtenir en retour l'historique visuel complet de l'entreprise.

Si les astronomes cartographient les confins de l'espace, l'industrie pharmaceutique cartographie quant à elle l'intérieur microscopique du corps humain, où une seule erreur peut silencieusement anéantir des milliards investis dans la recherche et le développement. Justin Donnelly (doctorat en biologie chimique) d'Axiom Bio a rappelé à l'auditoire que le coût moyen de mise sur le marché d'un seul médicament s'élève à environ 2,5 milliards de dollars, et que l'un des facteurs les plus importants et les plus persistants de ce coût est l'hépatotoxicité. Il s'agit d'une réaction toxique qui reste souvent invisible jusqu'à ce que le médicament soit déjà bien avancé dans les essais cliniques, moment où un échec serait le plus coûteux et le plus préjudiciable à la réputation.
Pour les dirigeants, le problème fondamental est bien connu : des décisions cruciales prises sur la base de données insuffisantes. Dans ce cas précis, nous ne disposons d'étiquettes de toxicité claires que pour environ 2 000 composés. C'est loin d'être suffisant pour éliminer de manière fiable les risques liés à l'ensemble d'un portefeuille de découvertes si nous traitons l'IA comme un moteur « big data » traditionnel.
L'approche de Donnelly recadre la question. Au lieu de demander au modèle de se prononcer simplement par oui ou par non sur la toxicité, il apprend à l'IA à s'expliquer en termes biologiques. Son équipe forme un modèle d'IA puissant et de grande envergure à partir de données expérimentales abondantes (environ 116 000 composés testés en laboratoire) afin de prédire un ensemble de caractéristiques biologiques fondamentales à partir de la structure de chaque molécule. En termes simples, l'IA apprend à répondre à la question suivante : « Étant donné cette molécule, quel effet est-elle susceptible d'avoir sur les cellules et les tissus ? » avant de se prononcer sur sa sécurité.
Il est important de noter qu'il ne s'agit là que d'une première étape. Ces caractéristiques prédites sont ensuite intégrées dans un deuxième modèle plus transparent, qui se comporte moins comme une boîte noire et davantage comme un toxicologue expérimenté. Lorsqu'un médicament de Pfizer appelé Lexipeptide a commencé à montrer des signes de toxicité au cours de son développement, ce système en deux étapes n'a pas seulement déclenché une alerte, il a également produit une analyse post-mortem quantifiée. Il a attribué le risque principalement au stress mitochondrial et à la concentration élevée du médicament, mettant clairement en évidence les leviers spécifiques que les chimistes auraient pu ajuster plus tôt. Tout aussi important, lorsque le modèle est incertain, il le dit explicitement : « Je ne dispose pas de suffisamment de données sur ce mécanisme ; passez à l'expérience suivante. »
Cela transforme l'IA d'un oracle mystérieux en un compagnon de décision avec une piste d'audit. Au lieu d'une note binaire qui ne peut être défendue devant un comité de gouvernance, les dirigeants obtiennent :
Dans les secteurs à haut risque autres que l'industrie pharmaceutique, le schéma est le même. Dans les services financiers, les banques commencent à utiliser des modèles tout aussi transparents pour aller au-delà des cotes de crédit à une seule ligne. Plutôt que d'opposer un refus générique, un système peut préciser que le risque lié à un prêt est, par exemple, déterminé à 60 % par la volatilité du marché et à 40 % par le ratio dette/revenu, ce qui permet de prendre des décisions de prêt plus nuancées et plus conformes. Dans les domaines des infrastructures et de l'énergie, des modèles permettant de déterminer si une défaillance prévue est due à la fatigue des matériaux ou à des contraintes environnementales permettraient aux opérateurs de cibler la maintenance avec une précision chirurgicale plutôt que de s'appuyer sur des calendriers généraux et prudents.
Les dirigeants peuvent en tirer une leçon directe : dans des environnements où une seule erreur de calcul peut entraîner un effondrement systémique, vous ne pouvez pas vous permettre d'utiliser une IA qui se contente de prédire ; vous avez besoin d'une IA qui explique. Les implémentations gagnantes seront celles qui :
En d'autres termes, l'avantage concurrentiel ne vient pas du fait d'être le premier à déployer un modèle puissant. Il vient du fait d'être le premier à déployer un modèle que vos scientifiques, vos responsables des risques et vos régulateurs peuvent interroger, auquel ils peuvent faire confiance et sur lequel ils peuvent agir.

Si l'astronomie et la pharmacie s'intéressent aux galaxies et aux molécules, les travaux d'Anna Goldenberg, membre du corps professoral de Vector, se concentrent sur quelque chose de plus proche de nous : les signaux continus émis par le corps humain. Chercheuse principale dans le programme de génétique et de biologie génomique à l'Institut de recherche SickKids, Anna Goldenberg remet en question une hypothèse courante dans le domaine de la santé et au-delà, selon laquelle chaque maladie, chaque cas d'utilisation ou chaque environnement est si différent qu'il faut repartir de zéro à chaque fois. Ses données suggèrent le contraire : sous la surface, le corps humain se comporte de manière étonnamment cohérente.
Son équipe étudie ce qu'elle appelle les « états physiologiques », c'est-à-dire des modèles stables dans les données telles que la fréquence cardiaque, le sommeil et les mouvements qui persistent dans le temps. Ce qui est frappant, ce n'est pas seulement l'existence de ces états, mais leur transférabilité. Dans le cadre d'un projet, leurs modèles ont appris à reconnaître des états à partir de données collectées auprès de femmes enceintes à l'aide de dispositifs portables, notamment des périodes qualifiées de « sentiment de contrôle » ou de « troubles du sommeil ». Ces mêmes états ont ensuite été transférés avec une précision inattendue à un groupe complètement différent : des patients atteints de la maladie de Crohn.
Pour les dirigeants, le message est important : vous n'avez peut-être pas besoin d'un modèle sur mesure pour chaque sous-population ou condition. Si vous pouvez apprendre des états robustes et interprétables dans un contexte donné, vous pouvez souvent les réutiliser dans un autre contexte.
Techniquement, l'équipe de Goldenberg emprunte une idée aux grands modèles linguistiques (LLM), mais l'applique à des signaux chronologiques plutôt qu'à des mots. Plutôt que de prédire le mot suivant dans une phrase, ils alimentent le modèle avec des « phrases » de données physiologiques au fil du temps :
Un modèle de base pour les données chronologiques apprend la « grammaire de la physiologie humaine » ; il découvre des « phrases » récurrentes de stress, de récupération, de stabilité et de détérioration.
Goldenberg fait une analogie avec l'industrie : un technicien sait qu'une turbine vibrante dans un moteur à réaction et une pompe vibrante dans une usine peuvent souffrir des mêmes problèmes physiques sous-jacents, même si elles se trouvent dans des systèmes différents. Une fois que vous comprenez le schéma d'usure dans un environnement, vous pouvez le repérer dans un autre. De même, dans le domaine de l'énergie et des services publics, les composants du réseau, les transformateurs et les sous-stations émettent des données chronologiques qui reflètent les contraintes, les surcharges et la dégradation ; les états appris tels que le fonctionnement stable, la surcharge naissante ou la contrainte thermique peuvent être réutilisés dans différentes régions et pour différents types d'actifs.
La conclusion pour les dirigeants est claire : ne traitez pas chaque ensemble de données, site ou gamme de produits comme un problème d'IA entièrement nouveau. Investissez dans des modèles de base pour vos signaux chronologiques clés (sorties de capteurs, appareils portables, journaux de machines, flux de transactions) et concentrez-vous sur la découverte d'états réutilisables tels que santé vs stress, normal vs anormal, stable vs instable. Concevez votre stratégie d'IA de manière à ce que chaque nouveau déploiement puisse hériter des enseignements tirés précédemment, et traitez les données opérationnelles comme un langage à modéliser, et non comme un ensemble de mesures isolées. La véritable mesure du succès n'est pas seulement la précision d'un projet pilote, mais aussi la facilité avec laquelle ces états appris se propagent à travers les unités commerciales, les actifs et les conditions.
En d'autres termes, la véritable valeur ne réside pas simplement dans la prédiction plus précise d'un résultat unique. Il s'agit de créer une couche d'IA qui comprend la dynamique universelle de vos systèmes, de sorte que lorsqu'un nouveau produit, un nouveau groupe de patients ou une nouvelle classe d'actifs arrive sur le marché, le modèle maîtrise déjà suffisamment son langage pour être utile dès le premier jour.

Alors que le soleil se couchait sur University Avenue, les participants à la journée sont repartis mieux armés pour œuvrer en faveur d'une forme d'IA plus disciplinée et plus honnête, qui montre que le goulot d'étranglement de l'annotation, le déficit de confiance et le fossé entre la recherche et la production ne sont pas insurmontables.
La voie à suivre est une sorte de parcimonie disciplinée : utiliser la physique pour guider l'imagination de la machine, la causalité pour étayer ses prédictions et l'explicabilité pour garantir que, lorsque le modèle s'exprime, il ait quelque chose de significatif à dire. Pour l'industrie (les sciences de la vie disposant de données limitées, les fabricants de produits à haut risque et les institutions financières soumises à une surveillance étroite), le message était clair : l'objectif n'est plus de construire une machine capable de voir les étoiles, mais une machine capable de comprendre pourquoi elles brillent.
Notre communauté de recherche renommée réalise des percées dans le domaine de la science et de l'application de l'IA.