Clonage de la pensée : Apprendre à l'IA à penser comme les humains pour une meilleure prise de décision
10 février 2025
10 février 2025
De nouvelles recherches menées par Jeff Clune, membre du corps professoral de Vector, et Shengran Hu, étudiant diplômé de Vector, présentent une approche novatrice de l'apprentissage par imitation qui pourrait révolutionner la façon dont nous formons les agents d'intelligence artificielle. Appelés clonage de la pensée (TC), leurs travaux suggèrent qu'en formant les agents d'intelligence artificielle à penser dans un langage similaire à celui des humains, ils apprendront plus vite, seront plus performants et se généraliseront plus efficacement. Cette amélioration cognitive ne consiste pas seulement à comprendre des commandes, mais aussi à réfléchir activement à des tâches.
Ce résumé concis comble le fossé entre les avancées scientifiques complexes et la compréhension de tous les jours. Idéal pour les passionnés et les non-chercheurs, commencez à écouter dès maintenant.
L'une des principales limites des agents d'IA actuels est leur incapacité à "penser" en langage humain. Si les réseaux neuronaux ont des activations vectorielles internes qui peuvent être considérées comme une forme de pensée, les recherches de Clune et Hu montrent que la pensée sous la forme discrète et symbolique du langage présente des avantages spécifiques. Ces avantages comprennent la capacité de combiner des idées d'un nombre exponentiel de façons, ce qui permet de mieux généraliser, explorer, planifier et s'adapter à de nouvelles situations.
À la base, TC est un cadre d'apprentissage par imitation qui vise à enseigner aux agents non seulement comment agir, mais aussi comment penser tout en agissant. Pour ce faire, l'apprentissage s'effectue sur des ensembles de données comprenant à la fois des actions humaines et les pensées ou raisonnements correspondants qui sous-tendent ces actions.
Le cadre de la CT se compose de deux éléments principaux :
Pour valider leur approche, Clune et Hu ont mené des expériences dans le domaine BabyAI, un environnement difficile en grille 2D avec une observabilité partielle et des missions complexes décrites en langage naturel. Ils se sont concentrés sur l'environnement le plus difficile, BossLevel, qui nécessite une planification à long terme et une navigation dans plusieurs pièces.
Les chercheurs ont créé un ensemble de données de pensées synthétiques en traduisant les états internes du BabyAI Oracle Solver en pensées en langage naturel. Cet ensemble de données, comprenant 1 million de trajectoires, a été utilisé pour former l'agent TC.
Comparaison des performances : L'agent TC est nettement plus performant que l'agent de référence du clonage comportemental (BC), à la fois en termes de vitesse d'apprentissage et de performance finale. Cette supériorité s'est maintenue même en tenant compte du nombre de paramètres et de la quantité de données d'entraînement.
Généralisation : Le CT a fait preuve d'une meilleure généralisation dans les environnements hors distribution, à la fois dans des contextes d'essais à zéro et après un réglage fin. Cela suggère que la capacité de "penser" en langage améliore la capacité de l'agent à s'adapter à des situations nouvelles.
Interprétabilité : Les auteurs ont introduit une mesure appelée "Future Action Declaration Score", qui quantifie la fréquence à laquelle l'agent déclare ses actions prévues dans ses pensées avant de les exécuter. Les agents de la CT ont obtenu des résultats systématiquement élevés pour cette mesure, même dans des environnements où la distribution n'est pas assurée, ce qui prouve la robustesse de l'interprétabilité.
Sécurité de l'IA : Les chercheurs ont présenté un mécanisme d'"intervention précriminelle", qui permet d'éviter les comportements dangereux en arrêtant l'agent lorsque des pensées dangereuses sont détectées. Cette approche s'est avérée très efficace pour éliminer les actions dangereuses sans qu'il soit nécessaire de modifier les poids du modèle.
L'une des contributions les plus importantes de ce travail est son impact potentiel sur la sécurité et l'interprétabilité de l'IA. En permettant aux agents de "penser à voix haute" en langage humain, la CT offre plusieurs avantages :
Clune et Hu envisagent que les TC brillent véritablement lorsqu'ils sont formés sur des ensembles de données à l'échelle de l'internet de personnes pensant à haute voix tout en agissant, telles que des vidéos YouTube avec transcriptions. Ils supposent qu'un tel entraînement à grande échelle pourrait conduire à des agents dotés de capacités de planification et de raisonnement semblables à celles des humains dans un large éventail de domaines.
En outre, les auteurs suggèrent que la CT pourrait être utilisée pour améliorer les modèles de fondation en permettant un "canal de pensée" distinct où les modèles peuvent émettre des pensées intermédiaires pendant la planification et la résolution de problèmes.
Le clonage de la pensée est une avancée significative dans l'apprentissage par imitation, offrant une nouvelle approche pour créer des agents d'intelligence artificielle plus capables, plus interprétables et potentiellement plus sûrs. En apprenant aux agents à "penser" en langage humain, le TC ouvre de nouvelles possibilités pour les systèmes d'IA qui peuvent raisonner, planifier et expliquer leurs actions d'une manière plus proche de la cognition humaine. En poursuivant les recherches dans cette direction, nous pourrions voir apparaître des agents d'IA non seulement plus puissants, mais aussi plus transparents et plus dignes de confiance, ce qui permettrait de relever certains des principaux défis liés au développement et au déploiement de l'IA.
Ce billet de blog fait partie de notre série "ANDERS - AI Noteworthy Developments Explained & Research Simplified". Nous utilisons ici des agents d'intelligence artificielle pour créer les premières ébauches de documents de recherche, qui sont ensuite soigneusement éditées et affinées par nos collaborateurs. L'objectif est de vous fournir des explications claires et concises sur les recherches de pointe menées par les chercheurs de Vector. Grâce à ANDERS, nous nous efforçons de combler le fossé entre les avancées scientifiques complexes et la compréhension de tous les jours, en soulignant pourquoi ces développements sont importants et comment ils influencent notre monde.