L'IA pour la chimie et les matériaux : un mélange d'anciens et de nouveaux modes de pensée

7 novembre 2023

Perspectives Recherche

Par Anatole von Lilienfeld

L'introduction de l'intelligence artificielle dans les simulations informatiques basées sur la physique a entraîné des changements fascinants dans le monde de la chimie et de la science des matériaux. Au lieu de passer des heures à fouiller dans l'obscurité pour étudier un composé à la fois, nous avons maintenant des gadgets d'apprentissage automatique qui trient des montagnes de composés virtuels, fournissant des réponses fiables sur de nouveaux composés chimiques ou de nouvelles façons d'adapter des matériaux existants à des tâches particulières.

Ce changement est comparable à l'introduction des calculatrices qui remplacent les calculs à la main. Toutefois, dans ce cas, les calculatrices nous offrent un raccourci formidable pour comprendre et contrôler. Il pourrait bientôt devenir courant de fabriquer à la demande et en temps réel la matière même dont notre monde est fait, ce qui nous permettrait de relever de nombreux défis mondiaux grâce à des matériaux et des molécules améliorés. Imaginez comment cela nous permettra d'accélérer la découverte de médicaments et la médecine personnalisée, ou de réduire notre empreinte carbone en créant de nouvelles technologies de batteries. 

Je trouve qu'il est remarquablement beau de mélanger ces anciennes et nouvelles façons de penser, une approche illustrée par les trois publications suivantes de mon laboratoire.

La théorie de la fonctionnelle de la densité à l'ère de l'IA

La mécanique quantique, en particulier une approche appelée théorie de la fonctionnelle de la densité (DFT), est un outil puissant pour comprendre les produits chimiques et les matériaux et prédire leurs propriétés et leur comportement. Cette méthode est appréciée pour sa précision, sa polyvalence et son universalité dans les simulations informatiques et s'applique largement au tableau périodique de Mendeleïev. Nous avons récemment beaucoup progressé dans l'utilisation de modèles d'apprentissage machine (ML) formés sur des données synthétiques obtenues à partir de simulations DFT exigeantes en termes de calcul. Dès 2011, nous avons pu montrer qu'après entraînement, ces modèles d'apprentissage automatique pouvaient fournir des prédictions instantanées pour de nouveaux composés avec la qualité et la polyvalence de la DFT. Des avancées plus récentes, telles que l'IA générative et les grands modèles de langage, ont eu un impact majeur et ouvrent la voie à des logiciels très prometteurs pour la planification de validations expérimentales réussies dans des laboratoires qui pourraient essentiellement fonctionner tout seuls. 

Dans l'article "The central role of density functional theory in the AI age" (Le rôle central de la théorie de la fonctionnelle de la densité à l'ère de l'IA) publié dans Science, nous expliquons comment cela permet d'envisager un avenir où les expériences menées par des robots deviendront aussi fondamentales pour la science que l'apprentissage automatique, les simulations informatiques, les théories traditionnelles et les expériences menées par des humains.

Apprentissage automatique quantique

Dans le domaine de nos modèles ML basés sur la mécanique quantique, la façon dont nous représentons ou "cartographions" les systèmes chimiques est cruciale car elle affecte directement les besoins en données d'entraînement nécessaires pour atteindre la puissance prédictive souhaitée. Les méthodes de représentation les plus prédictives, qui s'accommodent de tailles minimales d'ensembles de données d'entraînement, ont toutefois tendance à être lourdes en termes de calcul, ce qui rend l'étape d'entraînement lente et contraignante en termes de besoins en matériel et d'empreinte carbone. 

Depuis que j'ai déménagé mon laboratoire à Toronto l'été dernier, Stefan Heinen, boursier postdoctoral de Vector, Danish Khan, étudiant diplômé de Vector, et moi-même avons travaillé sur une nouvelle caractérisation des composés chimiques basée sur la physique qui est si compacte que le coût d'apprentissage des modèles d'apprentissage automatique peut être réduit de plusieurs ordres de grandeur. Dans notre article intitulé "Kernel based quantum machine learning at record rate : Many-body distribution functionals as compact representations", publié dans The Journal of Chemical Physics, nous proposons un moyen amélioré de représenter les systèmes chimiques qui est non seulement ultra-compact mais qui est également invariant par rapport à la taille du système. Cette méthode est basée sur ce que l'on appelle les fonctionnelles de distribution à plusieurs corps gaussiennes atomiques (MBDF). 

Lorsque nous avons testé la MBDF sur des ensembles de données de référence constitués de molécules organiques, ses performances ont égalé ou même rivalisé avec les meilleures méthodes actuelles pour diverses propriétés quantiques. Nos résultats suggèrent que l'approche basée sur le MBDF peut trouver un équilibre efficace entre le coût de l'échantillonnage et de l'entraînement tout en conservant une grande précision, ce qui en fait le choix préféré pour certaines configurations de données d'entraînement et de matériel de calcul disponibles. Générant des prédictions chimiquement précises pour les propriétés quantiques de composés non vus hors échantillon, elle atteint des taux d'échantillonnage dans l'espace des composés chimiques qui reviennent à passer au crible environ 48 molécules/seconde en n'utilisant qu'un seul cœur de calcul. Alors que les humains sont généralement incapables de fournir des estimations quantitatives des propriétés quantiques, la résolution numérique des équations correspondantes pour une seule molécule prendrait facilement des milliers de secondes si elle était effectuée de manière conventionnelle sans ML.

Accélérer la recherche scientifique grâce à l'automatisation

Cet été, Siwoo Lee, étudiant au département de chimie de l'université de Toronto, Heinen, Khan et moi-même avons mis au point un flux de travail autonome qui associe un réseau neuronal convolutionnel à un modèle de langage étendu pour extraire des tableaux de données spécifiques d'articles scientifiques. Nous avons testé cette approche pour 592 molécules organiques étudiées dans 74 articles différents publiés entre 1957 et 2014. Ces articles rapportaient des mesures expérimentales sur une propriété cruciale pour la recherche en électrochimie, le potentiel d'oxydation, avec des valeurs allant de -0,75 à 3,58 V et le signe indiquant si la molécule préfère attirer ou libérer un électron. 

Après avoir conservé les données à des fins de validation et pour tenir compte des différentes conditions expérimentales, nous les avons utilisées pour entraîner d'autres modèles d'apprentissage automatique qui ont pu prédire les potentiels d'oxydation avec une marge d'erreur proche de celle que l'on peut attendre d'erreurs expérimentales normales (environ +/- 0,2 V). Si plusieurs études présentaient des résultats pour la même molécule, notre modèle d'IA pouvait décider quelle valeur était probablement la bonne. Nous avons ensuite utilisé nos modèles pour prédire le potentiel d'oxydation de plus de 100 000 molécules organiques, trouvant des valeurs comprises entre 0,21 et 3,46 V. Notre analyse a montré que certaines caractéristiques des molécules, comme le fait d'être aliphatique, pouvaient augmenter le potentiel d'oxydation de 1,5 à 2,0 V en moyenne, tandis que le fait d'avoir plus d'atomes l'abaissait généralement. Il est important de noter que notre flux de travail démontre comment le chaînage de plusieurs modèles d'IA permet un flux de travail automatique qui réduira considérablement le travail manuel que les scientifiques devraient normalement effectuer pour obtenir des estimations de propriétés computationnelles de nouveaux composés basées sur des modèles d'IA entraînés sur des données de la littérature. 

Ce nouveau travail passionnant a été soumis pour publication et est actuellement disponible en ligne sous forme de préimpression. Les applications futures de cette ligne de recherche pourraient bien contribuer à la révolution des efforts de recherche expérimentale sur les matériaux et la chimie par le biais d'agents d'IA autonomes étudiant de nouvelles questions et de nouveaux problèmes grâce à l'utilisation de laboratoires autoguidés. 

Nous sommes sur le point de découvrir des choses vraiment géniales ; nous pourrions bientôt tomber sur de nouveaux médicaments, fabriquer de meilleures batteries, produire de l'électronique organique améliorée, concocter des moyens plus propres de conduire des réactions chimiques avec des catalyseurs sur mesure, et peut-être, juste peut-être, tomber sur ces insaisissables supraconducteurs à température ambiante.

En rapport :

Recherche
Une IA digne de confiance

Des experts de renommée mondiale en matière de confiance et de sécurité de l'IA publient un article majeur sur la gestion des risques liés à l'IA dans la revue Science

Perspectives
Grands modèles linguistiques

Des protocoles normalisés sont essentiels pour un déploiement responsable des modèles linguistiques

Apprentissage automatique
Recherche

Les inconnues connues : Geoff Pleiss, chercheur chez Vector, se penche sur l'incertitude pour rendre les modèles de ML plus précis.