Les Modèles d’IA Auto-Adaptatifs du MIT : Quand l’Intelligence Artificielle Réécrit Son Propre Code

Le MIT a récemment publié un article intitulé « Self-Adapting Language Models » (Modèles de langage auto-adaptatifs). Il s’agit d’un cadre dans lequel les modèles de langage génèrent leurs propres données d’entraînement et s’auto-éditent pour mettre à jour leurs poids en réponse à de nouvelles entrées. En d’autres termes, ces modèles améliorent leur propre « cerveau » pour devenir plus performants dans l’exécution de certaines tâches.

Le principe des modèles auto-adaptatifs

L’un des auteurs de l’article, Adam Zwiger, a déclaré : « Un aspect sous-estimé et potentiellement plus pratique de notre article sur les modèles de langage auto-adaptatifs est le potentiel de conservation générale des données de pré-post-entraînement. »

On peut imaginer ce système comme un modèle « enseignant » et un modèle « étudiant ». Dans l’article, il s’agit du même modèle qui génère et apprend de ces auto-éditions. En pratique, il pourrait être beaucoup plus puissant d’avoir un modèle enseignant et un modèle étudiant, chacun ayant ses propres parcours de formation, son propre pipeline d’apprentissage par renforcement (RL) – l’un pour l’enseignant qui lui apprend à mieux augmenter les données d’entraînement pour l’étudiant.

Ce qui est fascinant, c’est qu’il y a à peine un ou deux ans, on disait que l’IA finirait par atteindre ce stade où elle serait capable d’améliorer son propre cerveau, de mettre à jour ses poids en temps réel pour devenir plus intelligente. Et nous en voyons maintenant les premières manifestations.

Les limites actuelles des modèles de langage

Comme le souligne l’article, les modèles de langage (LM) sont puissants mais statiques. Ils ne peuvent pas adapter leurs poids en réponse à de nouvelles tâches, connaissances ou exemples. Les chercheurs introduisent donc les modèles de langage auto-adaptatifs (SEAL), qui permettent aux LM de s’auto-adapter en générant leurs propres données de fine-tuning et directives de mise à jour.

Comprendre le fonctionnement des modèles neuronaux

Une fois ces modèles entraînés, ce qui émerge, ce sont leurs poids. Ces réseaux neuronaux sont similaires à ceux de notre cerveau – divers neurones connectés entre eux. Selon la façon dont ces connexions sont établies et leur force, cela nous permet de penser et de raisonner. Il s’agit d’une représentation numérique de ce processus.

Les connexions sont représentées par divers nombres, qu’on appelle les « poids ». Tout comme le cerveau a des neurones et des synapses, ici nous avons des neurones et des poids qui représentent les connexions. Si vous avez les poids, vous pouvez reconstituer le modèle, car c’est généralement les poids plus du code que nous considérons comme Gemini et ChatGPT.

L’entraînement par descente de gradient

L’entraînement de ces modèles se fait par ce qu’on appelle la descente de gradient. Nous entraînons les réseaux neuronaux sur des données vers un certain objectif, comme prédire le prochain token (mot) ou créer des images avec des modèles de diffusion. La façon dont nous testons leur efficacité consiste à leur demander de faire cette prédiction (inférence), et la différence entre l’inférence et la réalité constitue la perte (loss). C’est en quelque sorte l’écart du modèle, et nous essayons de minimiser cette perte pour les rendre moins erronés, afin qu’ils soient mieux à même de prédire ce que nous voulons qu’ils prédisent.

À la fin de ce processus, ce qui émerge est un modèle entraîné avec des poids statiques. Mais nous pouvons affiner ce modèle (fine-tuning), ce qui modifie également ses poids, créant presque une nouvelle version du modèle. Généralement, nous essayons de l’affiner pour qu’il effectue une sous-tâche spécifique, peut-être en créant un modèle plus petit qui s’exécute plus rapidement et excelle dans certains domaines.

Le fine-tuning expliqué

Le fine-tuning fait référence au processus qui consiste à prendre un modèle pré-entraîné et à l’adapter à une tâche spécifique en l’entraînant davantage sur des ensembles de données plus petits et spécifiques à un domaine. Nous orientons ainsi le modèle vers une application du monde réel.

Dans le cas des modèles auto-adaptatifs, ces modèles génèrent leurs propres données de fine-tuning. Face à une nouvelle entrée, le modèle produit une auto-édition, une génération qui peut restructurer l’information de différentes manières, spécifier des hyperparamètres d’optimisation ou invoquer des outils pour l’augmentation des données et les mises à jour basées sur le gradient.

Grâce au fine-tuning supervisé, ces auto-éditions entraînent des mises à jour persistantes des poids, permettant une adaptation durable. On peut considérer que le modèle modifie son propre cerveau pour être meilleur dans cette tâche, et c’est une modification durable.

L’apprentissage par renforcement pour l’auto-amélioration

Pour entraîner le modèle à produire des auto-éditions efficaces, les chercheurs utilisent une boucle d’apprentissage par renforcement, en utilisant la performance en aval du modèle mis à jour comme signal de récompense.

Imaginez que vous êtes mauvais en mathématiques. Vous faites une copie de vous-même, puis vous explorez le cerveau de cette copie en essayant de le rendre meilleur en mathématiques. Ensuite, vous lui demandez de passer un test de mathématiques pour vous, et s’il réussit mieux, vous savez que vous avez réussi. L’apprentissage par renforcement consiste à obtenir une récompense pour avoir amélioré la précision de ce cerveau.

Une analogie avec l’apprentissage humain

Les chercheurs proposent une analogie intéressante : un étudiant qui se prépare à l’examen final d’un cours d’apprentissage automatique. Les étudiants s’appuient sur leurs propres notes pour se préparer à l’examen. Ces notes sont dérivées de tout ce qu’ils ont vu – les cours, le manuel, les informations. Ils lisent, regardent et absorbent toutes ces données et les réduisent à leurs notes d’une manière qui a du sens pour eux, où ils compriment toutes ces informations, toutes ces connaissances pour en faire leurs propres données.

En écrivant ces notes, l’étudiant assimile les données. Il réécrit l’information d’une façon qui l’aide à la mémoriser. Cela améliore la capacité des étudiants à comprendre le contenu et à répondre aux questions de l’examen. Cette idée de prendre les données, de les réinterpréter, tout cela aide à vraiment apprendre l’information. Et ce n’est pas limité aux écoles, c’est universellement vrai pour tout apprentissage humain.

L’analogie avec l’apprentissage humain appliquée à l’IA

Ce qui est fascinant, c’est que cette méthode d’apprentissage naturelle pour les humains n’est pas la façon dont nous entraînons actuellement nos grands modèles de langage. Actuellement, ces LLM apprennent à partir des données telles quelles, ce qui ne leur permet pas de développer des stratégies sur mesure.

Ils ne peuvent pas élaborer la meilleure stratégie possible, leur propre façon spéciale et personnalisée nécessaire pour améliorer leurs capacités. Nous leur donnons simplement l’ensemble de données que nous avons sous la main et leur disons d’y aller.

C’est comme si quelqu’un disait : « Cette méthode d’apprentissage pourrait très bien fonctionner pour vous, mais au lieu de cela, nous allons vous faire suivre une conférence audio qui s’étend sur 10 heures, dans une pièce chaude et bruyante qui sent mauvais, mais vous devez quand même apprendre ces données. » Eh bien, devinez quoi ? Ce ne sera pas aussi efficace que si vous apprenez par la méthode qui vous convient le mieux.

SEAL : Une approche révolutionnaire

Pour faire un pas vers l’adaptation évolutive et efficace des grands modèles de langage, cet article propose cette approche où on leur donne la capacité de générer leurs propres données d’entraînement et directives de fine-tuning, qu’ils appellent SEAL.

Ils évaluent SEAL sur deux applications. Premièrement, comment intégrer de nouvelles connaissances factuelles dans un LLM ? C’est comme un étudiant qui étudie pour un examen. Comment prennent-ils tous les manuels et les cours pour les intégrer dans leur cerveau afin de pouvoir passer cet examen ?

Au lieu de faire du fine-tuning directement sur le texte de passage, ils font du fine-tuning sur des données synthétiques générées par le modèle SEAL. C’est beaucoup plus comme les notes des étudiants : ils prennent beaucoup de notes de la manière qui leur convient, puis ils étudient ces notes. Au lieu d’étudier l’enregistrement du cours et le manuel, ils condensent tout cela en notes. Ce sont leurs données synthétiques, les données qu’ils ont produites, et c’est ce sur quoi ils s’entraînent.

Cette approche améliore les performances de réponse aux questions de 33,5 à 47. Et ces données auto-générées surpassent les données synthétiques générées par GPT-4.1. Le modèle est donc meilleur pour prendre des notes à étudier plus tard qu’un autre modèle très capable et très performant.

Tests sur le benchmark ARC AGI

Les chercheurs ont testé leur approche sur le benchmark ARC AGI. Ce benchmark présente des puzzles qui sont très faciles pour les humains à résoudre. Cela peut sembler compliqué au premier coup d’œil, mais si vous prenez le temps de les examiner, c’est assez simple. Vous remarquerez rapidement un modèle, vous pourrez vérifier ce modèle en examinant tous les exemples, et une fois que vous connaissez les règles qu’ils voulaient que vous suiviez, vous les appliquez et c’est terminé.

Ces tâches ARC AGI sont en théorie faciles pour les humains et vraiment difficiles pour ces grands modèles de langage. Pendant que vous résolvez ces problèmes, vous affinez votre propre compréhension. Vous façonnez votre cerveau pour qu’il soit mieux à même de résoudre ces problèmes. Les grands modèles de langage, eux, sont figés, statiques. Ils n’apprennent pas en passant le test. Ils sont comme des amnésiques qui effacent tout à chaque fois. Ils ne peuvent compter que sur leur fenêtre contextuelle, qui est très limitée.

Sur ce benchmark ARC AGI, le modèle utilise un ensemble d’outils pour sélectionner de manière autonome à la fois les augmentations de données synthétiques et les hyperparamètres d’optimisation. S’il ne faisait que créer des données synthétiques, ce ne serait pas si impressionnant, car c’est ce que font ces grands modèles de langage – reproduire des données textuelles. Mais il semble qu’ils entraînent réellement la prochaine génération d’eux-mêmes.

Test Time Training (TTT) et SEAL

Les chercheurs ont également abordé un article sur le Test Time Training (TTT). Dans ce cas, le modèle adapte temporairement ses poids en fonction de l’entrée qu’il reçoit. Par exemple, face à un test ARC AGI, il s’affine temporairement, modifie les poids du modèle pour pouvoir répondre plus précisément aux questions de ce type.

Leur proposition SEAL peut être considérée comme utilisant l’approche TTT pour effectuer les mises à jour et récompenser les données générées qui produisent le plus grand gain de performance. Nous modifions ces poids, nous voyons à quel point ce réseau neuronal modifié fonctionne bien, et nous lui donnons un high five virtuel pour le meilleur, afin que le modèle comprenne ce qui fonctionne et ce qui ne fonctionne pas. Ainsi, avec le temps, il s’améliore dans ce processus.

Structure de l’algorithme SEAL

On peut considérer SEAL comme un algorithme avec deux boucles imbriquées :

Une boucle RL externe qui optimise la génération d’auto-édition. C’est la partie qui essaie d’améliorer sa capacité à générer ces modifications d’elle-même. On peut même la considérer comme un enseignant qui apprend à mieux enseigner.
La boucle de mise à jour interne qui utilise ces auto-éditions pour mettre à jour le modèle via la descente de gradient.

Leur méthode peut être considérée comme un exemple de méta-apprentissage où ils méta-apprennent comment générer des auto-éditions efficaces.

Vers une IA qui apprend sans supervision externe

Ces articles deviennent de plus en plus étonnants. Récemment, un article semble suggérer que ces modèles n’ont pas nécessairement besoin d’apprentissage par renforcement (RL) via des récompenses externes, ce qu’on suppose généralement être le cas pour tout.

Par exemple, ici, nous le testons sur l’ARC AGI. S’il devient meilleur pour résoudre ces problèmes, nous disons : « Bien joué ». Mais pour cela, nous avons besoin de ces tests externes comme l’ARC AGI. Nous devons savoir quels problèmes sont corrects. Donc, quand il propose une réponse, nous devons savoir si cette réponse est correcte ou non.

Il y a un article, en fait plusieurs articles suggérant la même chose, qui viennent de sortir très récemment, semblant suggérer qu’on n’a même pas besoin de connaître les réponses. On peut simplement regarder à quel point le modèle est confiant dans sa réponse. S’il dit : « Oui, je connais cette réponse, j’en suis sûr », cela semble corrélé avec sa performance sur cette question. Cela a du sens : si vous êtes confiant dans votre réponse, cela signifie que vous avez probablement raison. Pas nécessairement, mais plus susceptible d’avoir raison. Si vous dites : « Je ne suis pas sûr, ça pourrait être ça », vous êtes peut-être moins susceptible d’avoir raison.

Ce qui n’est pas évident, c’est qu’il semble qu’on puisse utiliser ces intuitions ou cette confiance comme décrite dans l’article que le modèle a sur la probabilité d’obtenir la bonne réponse. On peut utiliser cela comme récompense RL. Cela peut sembler fou, et cela m’a semblé fou au début.

Le mur des données et l’avenir des modèles auto-adaptatifs

En conclusion, les chercheurs affirment que nous approchons de ce « mur de données » où nous arrivons à la fin de tous les textes générés par l’homme disponibles publiquement. Pour continuer au-delà, nous aurons besoin d’utiliser des données synthétiques, des données générées par ces modèles.

Ils imaginent un avenir dans lequel les modèles de langage peuvent ingérer de nouvelles données, comme des articles académiques, et générer de grandes quantités d’explications et d’implications pour eux-mêmes en utilisant leurs connaissances existantes et en raisonnant avec les données en contexte. C’est une boucle itérative d’auto-expression et d’auto-raffinement.

D’ailleurs, c’était un peu l’approche derrière Alpha Geometry de Google DeepMind, qui a presque remporté la médaille d’or aux Olympiades internationales de mathématiques. Alpha Geometry 2 est un système hybride neuro-symbolique. Plusieurs systèmes dans lesquels la partie modèle de langage était basée sur Gemini et entraînée à partir de zéro sur un ordre de grandeur plus de données synthétiques que son prédécesseur. Il crée d’énormes quantités de problèmes, puis les résout pour trouver des preuves ou des réfutations, s’entraînant progressivement via l’algorithme Alpha Zero pour résoudre des problèmes plus difficiles. Et cette chose était à un point de la médaille d’or aux IMO 2024.

Implications pour les systèmes d’IA agentiques

On pense à la prise de notes comme réduisant la quantité d’informations. Nous prenons les manuels et les cours et les réduisons à quelques pages de notes. Ce n’est pas nécessairement le cas pour les LLM. Ils pourraient créer mille fois plus de notes sur n’importe quel sujet, affinant vraiment tous les détails.

Comme ils le notent ici, beaucoup de modèles de raisonnement modernes sont entraînés avec l’apprentissage par renforcement pour générer des traces de chaîne de pensée. Le modèle réfléchit à la réponse, puis donne la réponse, et cela est entraîné avec l’apprentissage par renforcement pour arriver à la bonne réponse. Mais SEAL pourrait être un mécanisme complémentaire. Le modèle pourrait apprendre quand et comment mettre à jour ses propres poids. Selon la situation, il pourrait faire un raisonnement en chaîne de pensée ou utiliser cette approche SEAL.

Le modèle peut choisir d’effectuer des mises à jour de poids en milieu de raisonnement pour guider sa trajectoire actuelle ou après avoir terminé le raisonnement pour distiller les idées clés dans ses paramètres, améliorant l’inférence future grâce à l’apprentissage internalisé.

Tout cela peut sembler compliqué, mais c’est littéralement ce que nous faisons tous intuitivement quand nous allons à l’école, quand nous étudions pour des tests, quand nous prenons des notes et les révisons plus tard, puis passons l’examen pour voir à quel point nous avons pu internaliser ces notes. Nos cerveaux ont appris à faire tout cela à la volée. Parfois, nous devons réfléchir aux choses. Parfois, simplement parce que nous avons lu beaucoup d’autres choses sur le sujet, une nouvelle question que nous n’avons jamais vue auparavant a tout simplement du sens parce que nous avons en quelque sorte généralisé la réponse. C’est ce que nos cerveaux font très automatiquement.

Beaucoup de ces articles montrent, et cela ne devrait pas être surprenant, que ces modèles ont tendance à fonctionner un peu comme nos cerveaux au lieu d’être construits à partir de zéro de manière évolutive. Ici, nous ajoutons manuellement différentes pièces et choses, mais beaucoup de cela simule simplement la façon dont nos cerveaux apprennent.

Le potentiel pour les systèmes d’IA agentiques

C’est ici que cela devient intéressant. Les chercheurs affirment que cette boucle de raffinement continu est également prometteuse pour construire des systèmes agentiques, des agents d’IA, des modèles qui peuvent fonctionner sur des interactions prolongées et s’adapter dynamiquement à des objectifs évolutifs.

Actuellement, les agents d’IA rencontrent des problèmes de cohérence à long terme. Ils ont tendance à être vraiment bons, généralement surhumains, dans les petites tâches qu’ils peuvent rapidement accomplir. Mais quand il s’agit de tâches à long horizon, ce que nous voyons très souvent, c’est qu’ils ont tendance à perdre le fil. Ils ont tendance à oublier des détails très cruciaux, et la chance qu’ils atteignent la ligne d’arrivée diminue plus la tâche est longue.

Une grande partie de cela est due au fait qu’ils ne conservent pas les connaissances qu’ils acquièrent pendant qu’ils poursuivent cette tâche. Si vous commencez un nouveau travail, vous apportez avec vous toutes les connaissances que vous avez acquises avant de commencer ce travail, mais vous n’êtes pas statique. Vous n’êtes pas figé dans le temps. Au fur et à mesure que vous en apprenez davantage sur ce travail, vous intégrez cela dans votre cerveau, dans vos connaissances, et vous êtes capable d’agir en conséquence. À la fin de ce travail, vous en savez plus sur la façon de faire les choses qu’au moment où vous avez commencé.

Les grands modèles de langage actuels ne font pas vraiment cela. Il n’y a pas de processus par lequel ils peuvent le faire. Imaginez un collègue qui se présente à son travail depuis un an et n’a rien internalisé. Il fait les mêmes erreurs qu’au premier jour. Ce sont nos agents d’IA maintenant.

Mais ils disent que cette approche, l’approche SEAL, soutient le comportement d’acquisition et de conservation des connaissances tout en accomplissant une tâche en permettant l’auto-modification structurée. Après une interaction, l’agent pourrait synthétiser une auto-édition, qui déclenche une mise à jour des poids, et cela pourrait permettre à l’agent de se développer au fil du temps, alignant son comportement avec l’expérience antérieure et réduisant la dépendance à une supervision répétée.

En d’autres termes, la promesse de l’avenir agentique des agents d’IA autonomes, cela pourrait être la grande solution. Cela pourrait être la chose qui le fait décoller parce qu’avant cela, avant maintenant, nous n’avons pas vu de grands exemples de cela. Nous avons vu des systèmes et des flux de travail, mais quelque chose capable d’exécuter des tâches à long horizon, nous n’avons pas vu de grands exemples de cela. Pas ceux qui ne s’appuyaient pas sur la supervision humaine.