L’IA S’améliore à S’auto-améliorer : Une Analyse Approfondie d’Alpha Evolve

L’intelligence artificielle capable d’améliorer l’IA est pratiquement omniprésente si l’on sait où regarder. Les outils de codage comme le nouveau Codeex d’OpenAI en sont un parfait exemple. Cet outil ne m’a pas seulement aidé à trouver un bug que Claude (via Cursor) avait manqué, mais il assiste également les chercheurs en IA. Ces agents de codage s’occupent peut-être des tâches les plus simples, mais ils libèrent du temps précieux pour les chercheurs afin qu’ils puissent se concentrer sur l’amélioration de l’IA.

Cependant, le processus d’auto-amélioration de l’IA est rarement aussi direct qu’avec l’agent Alpha Evolve de Google DeepMind. Cet agent peut générer de meilleurs prompts pour lui-même afin de développer un code plus performant pour des tâches utiles. Ces tâches conduisent à des améliorations d’efficacité dans sa propre version suivante. Bien que cette technologie ait été publiée il y a moins de 100 heures, ne vous inquiétez pas, ce n’est pas Skynet. Le monde réel ne permet pas encore la vitesse d’itération qu’Alpha Evolve implique. Mais cet agent constitue la preuve définitive, pour ceux qui en doutaient encore, que les modèles de langage (LM) ne sont pas une impasse et qu’ils commencent à peine à faire leur marque.

Qu’est-ce qu’Alpha Evolve exactement ?

En termes simples, le processus commence lorsqu’un humain fournit un problème à résoudre, du code qu’il a peut-être déjà essayé, et surtout, des métriques d’évaluation. Ces détails sont cruciaux pour ne pas surestimer les capacités d’Alpha Evolve.

Une fois que l’humain a fourni tous ces éléments (et plus il peut fournir de métriques, meilleure sera la performance), il peut simplement observer Gemini 2 (pas Gemini 2.5, son successeur bien plus impressionnant) itérer sur ce code. Le système utilise la version Flash de Gemini, plus petite et plus rapide, pour générer de nombreuses idées, mais la version Pro, Gemini 2 Pro, pour des suggestions solides.

On remarque le « prompt sampler », où le système s’inspire de prompts précédents qui ont fonctionné auparavant, ainsi que de programmes issus de la base de données qui ont été efficaces dans d’autres situations. Tout cela dans le but d’améliorer le code soumis par l’humain selon les métriques d’évaluation. C’est pourquoi Alpha Evolve est appelé un agent de codage. Son cœur de métier est d’améliorer ou de faire évoluer le code soumis par l’humain en fonction de ces métriques d’évaluation.

Pendant que l’humain remet en question ses choix de carrière, Alpha Evolve finit par revenir avec des améliorations de code qui produisent des programmes qui sont, 75% du temps, à la pointe de la technologie pour l’une des dizaines de tâches données. Pas impressionné ? Eh bien, 20% du temps, ces constructions sont meilleures que l’état de l’art.

Une perspective mathématique avancée

Si vous êtes Terence Tao, l’un des mathématiciens les plus brillants de la planète, vous décririez cela comme « l’extrémisation de fonctions f(x) avec x variant sur un espace de paramètres omega de haute dimension qui peut surpasser les algorithmes d’optimisation plus traditionnels lorsque l’espace des paramètres est de très haute dimension et que la fonction f et ses extrémiseurs ont des caractéristiques structurelles non évidentes ». Simple, n’est-ce pas, l’extrémisation de fonctions ? Rassurez-vous, ils passent maintenant à des problèmes plus complexes.

Le fonctionnement d’Alpha Evolve en détail

Revenons au document de recherche. Dans ce diagramme clé, on peut voir que DeepMind a mis l’accent sur la partie « evolve » d’Alpha Evolve, car le système non seulement stocke et échantillonne les meilleurs prompts jugés par le succès des métriques, mais aussi les meilleurs LLM pour la tâche. Oui, Gemini 2.5 Pro ne serait qu’à un pas d’apporter des améliorations supplémentaires.

Pour aller droit au but, la prochaine étape naturelle consistera à envisager de distiller les performances augmentées par Alpha Evolve des modèles de base dans la prochaine génération de ces modèles. Cela peut avoir une valeur intrinsèque et également améliorer la prochaine version d’Alpha Evolve.

Ces deux phrases méritent à elles seules une vidéo complète, car premièrement, qui Google essaie-t-il de tromper quand ils disent qu’ils vont « envisager » de faire cela ? Il est tout à fait possible qu’ils l’aient déjà fait pour Gemini 2.5. Alpha Evolve vient d’être publié, mais il a été testé en interne chez Google pendant environ un an.

Deuxièmement, Alpha Evolve constitue donc une étude de cas assez définitive contre l’idée d’une « guerre des données » permanente, car ce système est conçu pour générer des programmes améliorés qui peuvent ensuite être distillés dans la prochaine génération de modèles de base, qui deviennent alors meilleurs pour proposer des programmes améliorés.

En résumé, le code itéré qui s’avère bon devient ensuite d’excellentes données pour entraîner le prochain modèle de base, qui peut alors être intégré dans la prochaine version d’Alpha Evolve. Et oui, je sais que ce n’est qu’une des nombreuses boucles récursives mentionnées dans le document pour améliorer le LLM de base par distillation.

Applications pratiques et limites

Tout cela avant même d’aborder l’utilisation prévue d’Alpha Evolve dans les sciences appliquées comme la découverte de médicaments. Mais très rapidement sur ce point, je veux aborder pourquoi Alpha Evolve n’est pas tout à fait la confirmation d’un décollage rapide imminent.

Comme le document le précise tout au long, la principale limitation d’Alpha Evolve est qu’il traite des problèmes pour lesquels il est possible de concevoir et de soumettre un évaluateur automatisé. Bien que ce soit vrai pour de nombreux problèmes dans les sciences mathématiques et informatiques, il existe des domaines comme les sciences naturelles où seules certaines expériences peuvent être simulées ou automatisées.

Oui, il peut donc aider les scientifiques à évaluer de nouvelles expériences scientifiques, et ils travaillent à en faire un meilleur co-scientifique littéral. Mais il y a une raison pour laquelle même le PDG d’Anthropic, Dario Amodei, notoirement optimiste et qui s’attend à un siècle de progrès scientifique dans la prochaine décennie, a déclaré que l’intelligence sera initialement fortement limitée par les autres facteurs de production. En d’autres termes, les tubes à essai ne peuvent tester qu’à une certaine vitesse.

Les réalisations concrètes d’Alpha Evolve

Revenons à ce qu’Alpha Evolve a déjà accompli. Le plus célèbre, il a trouvé une décomposition tensorielle de rang 48 pour la multiplication de matrices complexes 4×4, ce qui est une amélioration inattendue même pour les auteurs, battant un record vieux de 50 ans pour les algorithmes adaptés à l’application récursive.

Exprimé simplement, la décomposition tensorielle ici signifie découvrir une recette plus fondamentale avec moins d’étapes essentielles (48 au lieu de 49) pour effectuer une multiplication matricielle. Ce type spécifique de recette, une décomposition tensorielle, est intéressant car il permet d’utiliser la méthode de manière répétée ou récursive pour accélérer considérablement les calculs pour les très grandes matrices, multiplications nécessaires pour toutes sortes d’opérations informatiques et d’IA.

Si vous n’êtes pas trop versé dans les mathématiques, voyons avec quoi d’autre je peux vous impressionner. Google a aidé à améliorer le Borg. Oui, vous savez, le véritable Borg, son optimisation de centre de données. Cette amélioration a aidé Google à récupérer 0,7% de ses ressources informatiques mondiales. Cela représentera bientôt des milliards de dollars. Mais rappelez-vous, les LLM sont une impasse…

Plus sérieusement, c’est clairement un travail collaboratif : les humains et les LLM fournissent des idées et des problèmes, le LLM propose des itérations, des vérificateurs codés en dur et des systèmes fournissent des contrôles automatisés.

Et ce n’est pas tout. Alpha Evolve a aidé à affiner la prochaine génération de puces de Google, ses TPU Ironwood. Et si vous vous souvenez de Deep Seek optimisant manuellement un noyau pour gagner en efficacité, Alpha Evolve l’a fait automatiquement lorsqu’on lui a donné ce problème, conduisant à une réduction de 1% du temps d’entraînement de Gemini. Évidemment, c’est encore une autre boucle récursive. Un Gemini meilleur ou plus efficace, conduisant à un meilleur futur Alpha Evolve.

Les améliorations futures d’Alpha Evolve

Maintenant que nous sommes convaincus de ses réalisations, laissez-moi vous présenter quatre façons dont Google admet qu’il s’améliorera bientôt, plus deux particularités amusantes et deux extraits d’interviews pertinents.

Première amélioration future

Les solutions et leurs scores pour ces tâches sont conservés dans une base de données évolutive. Mais rappelez-vous, il a été confirmé que les modèles Gemini ont une fenêtre de contexte allant jusqu’à 10 millions de tokens. Ces modèles ne sont pas encore publiés. Les modèles publics ne vont que jusqu’à 2 millions de tokens. Mais clairement, cette base de données évolutive pourrait un jour devenir incroyablement grande, donnant une véritable bibliothèque d’Alexandrie pour tout futur modèle à exploiter. Pour ceux qui suivent depuis un moment, cela pourrait vous rappeler ma couverture de Voyager, un agent pour Minecraft, qui avait une bibliothèque de compétences toujours croissante de code exécutable. Donc, première amélioration évidente, une base de données évolutive beaucoup plus grande.

Deuxième amélioration

Comme nous l’avons suggéré, Alpha Evolve est agnostique en termes de modèle. Ainsi, à mesure que le matériel s’améliore, que le temps d’entraînement est réduit et que les connaissances sont distillées pour aider à créer un meilleur Gemini 3, ce Gemini 3 fera un bien meilleur LLM au sein d’Alpha Evolve.

Et cela nous amène aux ablations. C’était une partie vraiment intéressante du document car elle montrait que chaque partie de l’agent de codage que nous avons décrit jusqu’à présent était en fait cruciale. Par exemple, si vous n’utilisiez qu’un petit LLM de base, Gemini Flash, et non Gemini Pro, les performances plafonnaient à un point inférieur. Si vous n’aviez pas cette fenêtre de contexte et ne pouviez pas faire une évolution de fichier complète, encore une fois, vous pouvez voir que les performances plafonnent à un point beaucoup plus bas.

Toutes les ablations montrent des performances inférieures si vous n’employez pas la méthode complète. Même l’abandon du méta-prompting, où vous faisiez évoluer quels prompts utiliser, affecte les performances.

Troisième amélioration

Le snippet de code qu’Alpha Evolve peut améliorer ne doit pas nécessairement être la fonction finale qui génère la solution directe. Il peut s’agir d’un algorithme de recherche utilisé ultérieurement pour trouver une fonction finale optimale. Ainsi, Alpha Evolve peut essentiellement continuer à améliorer la façon dont nous recherchons des programmes optimaux.

Quatrième amélioration

C’est subtil et pourrait être manqué par beaucoup, mais les auteurs prévoient quelque chose d’assez important. Ils disent : « Cependant, avec ces améliorations, nous envisageons que la valeur de la mise en place de plus d’environnements, de problèmes avec des fonctions d’évaluation robustes sera plus largement reconnue, ce qui à son tour entraînera plus de découvertes pratiques de grande valeur à l’avenir. » Ce document souligne le besoin de fonctions d’évaluation robustes et les incitations sont maintenant beaucoup plus claires pour les créer, sachant que vous aurez un système à portée de main pour optimiser contre elles.

Quelques particularités intéressantes

J’ai pensé que vous pourriez trouver mignon que nous nous appuyions encore sur des prompts comme ceux-ci pour Alpha Evolve. Nous sommes en 2025 et nous disons à nos systèmes de pointe d’ »agir comme un développeur logiciel expert. Votre tâche est d’améliorer itérativement la base de code fournie. » Plus tard, ils disent : « Suggérez une nouvelle idée pour améliorer le code qui s’inspire de votre connaissance experte de l’optimisation et de l’apprentissage automatique. » Cela me fait vraiment me demander si le prompt final avant la véritable singularité sera « Je travaille chez Google. Améliore-toi ou je serai viré. »

Points sérieux à considérer

Une chose qu’Alpha Evolve ne pourrait pas encore créer est Alpha Evolve lui-même. Bien sûr, Alpha Evolve pourrait améliorer des parties d’Alpha Evolve, comme je l’ai discuté, mais il ne pourrait pas encore le créer à partir de zéro. Pas d’accord ? Eh bien, comme le dit Demis Hassabis, le directeur de Google DeepMind : « Nous avons des systèmes qui sont surhumains au jeu de Go, mais qui ne pourraient pas encore inventer le Go ». Les humains sont donc toujours aux commandes, du moins pour l’instant.

Ensuite, cette direction d’itération et de recherche est encore une façon de plus de dépenser nos allocations de calcul en explosion. Et même OpenAI admet que c’est une direction quelque peu différente de l’OER qui a produit des résultats de benchmark si étonnants. Jason Wei, une figure importante d’OpenAI, a déclaré : « Alpha Evolve est profondément troublant pour les inconditionnels de l’apprentissage par renforcement comme moi. Peut-être que l’entraînement intermédiaire plus une bonne recherche est tout ce dont vous avez besoin pour l’IA pour l’innovation scientifique. » Et il a ajouté : « Quel coup de maître de le garder secret pendant un an. Félicitations, grand G. »

Nous avons, en d’autres termes, des modèles approchant des innovateurs de niveau quatre sans chaîne de pensée neurale ou en mandarin en vue. Comme les auteurs eux-mêmes l’écrivent à la page 14, Alpha Evolve a été choisi plutôt qu’une approche d’apprentissage par renforcement profond car sa solution de code non seulement conduit à de meilleures performances, mais offre également des avantages clairs en termes d’interprétabilité, de débogage, de prévisibilité et de facilité de déploiement. Des qualités essentielles pour un système critique.

Google pourrait-il prendre la tête dans la course à l’IA ?

Une chose que je prédisais sur cette chaîne en 2023, bien avant que ce ne soit à la mode, était qu’il y a une chance significative que Google s’empare de la tête dans la course à l’IA. Google travaille sur l’AGI et l’auto-amélioration depuis des années de plus que les autres laboratoires et dispose de beaucoup plus de ressources.

Je ne parle pas de prendre la tête en termes de base d’utilisateurs ou même de profits, mais en termes d’intelligence brute de ses modèles. Codeex d’OpenAI, que j’utilise depuis les dernières 48 heures, est génial car vous pouvez l’exécuter sur mobile et déboguer plusieurs choses à la fois. Mais en seulement 18 mois, Google est passé du risiblement mauvais Bard face au puissant GPT-4 à être au moins à égalité avec Gemini 2.5.

Essentiellement, à mesure que les volants d’inertie commencent à tourner, pour citer Demis, je me demande vraiment où seront Gemini et DeepMind dans 18 mois. Eh bien, potentiellement syndiqués au Royaume-Uni, et crédit à DeepMind pour leur position éthique sur l’utilisation de leur IA dans la guerre. Mais en tête, je pense que c’est presque inévitable.

Conclusion

Alpha Evolve représente une avancée significative dans la capacité des systèmes d’IA à s’auto-améliorer. Avec ses applications concrètes allant de l’optimisation des centres de données à des percées mathématiques historiques, il démontre clairement que les modèles de langage ont encore un potentiel énorme à exploiter.

Ce qui est particulièrement fascinant, c’est la boucle récursive qu’il établit : de meilleurs modèles conduisent à de meilleurs outils d’optimisation, qui à leur tour permettent de créer des modèles encore plus performants. Bien que nous soyons encore loin d’une intelligence artificielle générale qui pourrait se concevoir entièrement elle-même, Alpha Evolve représente une étape importante dans cette direction.

Reste à voir comment cette technologie évoluera dans les mois et années à venir, mais une chose est certaine : nous sommes témoins d’une accélération remarquable dans le domaine de l’IA auto-améliorante.