L’Explosion de l’Intelligence : Comment Demis Hassabis et AlphaZero Révolutionnent l’Auto-Amélioration de l’IA

La Vision de Demis Hassabis sur l’Explosion de l’Intelligence

Demis Hassabis, fondateur de Google DeepMind, a récemment partagé sa vision concernant ce que beaucoup appellent « l’explosion de l’intelligence » dans le domaine de l’IA. Lorsqu’on lui a demandé s’il cherchait à provoquer une telle explosion, sa réponse a été claire : « Non. Pas une explosion non contrôlée. »

Hassabis explique : « Je pense que c’est une première expérience intéressante. C’est un système incroyable. Nous avons une excellente équipe qui travaille sur ce projet où il devient intéressant de commencer à associer d’autres types de techniques, dans ce cas des techniques de programmation évolutive, avec les derniers modèles de fondation qui deviennent de plus en plus puissants. »

Il souhaite voir davantage de systèmes combinatoires dans les travaux exploratoires, associant différentes approches. L’un des aspects les plus fascinants serait la découverte d’une boucle d’auto-amélioration, qui pourrait accélérer le développement de l’IA bien au-delà de sa progression actuelle.

AlphaZero : L’Auto-Amélioration en Action

Hassabis fait référence à des réalisations antérieures comme AlphaZero, qui a appris à jouer aux échecs, au go et à d’autres jeux à deux joueurs en partant de zéro, atteignant un niveau surhumain en moins de 24 heures grâce à des processus d’auto-amélioration.

« Nous savons que c’est possible, » affirme-t-il, « mais ces expériences se déroulent dans des domaines de jeu assez limités et bien définis. Le monde réel est beaucoup plus désordonné et complexe. Il reste à voir si ce type d’approche peut fonctionner de manière plus générale. »

L’Évolution Spectaculaire d’AlphaGo à AlphaGo Zero

Pour comprendre l’importance de cette auto-amélioration, examinons l’évolution d’AlphaGo :

AlphaGo Lee (représenté par la ligne verte dans les graphiques de performance) a été entraîné sur des données humaines, des parties jouées par des humains. Il a appris à reproduire ce que nous faisons et est devenu suffisamment bon pour battre le champion du monde Lee Sedol en 2016.
AlphaGo Zero (représenté par la ligne bleue) a commencé avec une ardoise vierge et a appris à jouer en s’affrontant lui-même. Au lieu d’apprendre à partir de données humaines, il est parti de zéro, sans indices ni préjugés humains sur la façon de jouer.

Les résultats ont été stupéfiants :

En seulement 36 heures, AlphaGo Zero a atteint et dépassé le niveau d’AlphaGo Lee

Au bout de 72 heures, il a battu AlphaGo Lee 100 à 0
En continuant à jouer, il est devenu le meilleur joueur de Go au monde, humain ou IA

Ce n’est pas un cas isolé. D’autres études confirment que lorsqu’on laisse l’IA s’entraîner elle-même, s’améliorer par elle-même, les résultats sont souvent bien meilleurs que lorsqu’elle apprend à partir de données humaines.

La Convergence de Deux Approches d’IA

Il y a quelques semaines, des ex-employés de Google ont discuté de cette idée lors du podcast SVIC, avant même que Google DeepMind ne publie Alpha Evolve. Ils ont souligné une tendance importante :

« Ce que je vois, c’est que nous avons connu des progrès massifs en 2016 avec AlphaGo puis AlphaZero, toute cette idée d’auto-évolution et d’auto-jeu. Puis nous avons obtenu ces grands modèles de langage (LLM) qui sont un peu plus généraux. Ils ne sont pas vraiment surhumains, mais ils sont généralement ‘intelligents’. Ils tentent de faire tout ce qu’on leur demande. »

La prochaine grande vague serait la convergence de ces deux approches : appliquer ce que nous avons appris d’AlphaGo et AlphaZero aux grands modèles de langage (LLM).

« Si nous parvenons à mettre à l’échelle l’apprentissage par renforcement sur ces grands modèles de langage pour qu’ils fassent de la programmation en s’auto-enseignant, ce qu’ils commencent à faire avec des résultats prometteurs, nous verrons probablement des progrès incroyables très rapidement. »

Absolute Reasoner : L’Auto-Amélioration pour le Codage

Un exemple concret de cette convergence est le projet Absolute Reasoner, développé par des chercheurs chinois en collaboration avec des chercheurs américains. Ils ont créé un système pour entraîner des modèles d’IA à coder sans aucune donnée humaine, uniquement par apprentissage par renforcement (RL).

Leur approche est ingénieuse :

Ils ont créé deux modèles : un « proposeur » qui génère diverses questions et problèmes, et un « solveur » qui résout ces problèmes
Le système s’améliore par auto-jeu : le proposeur devient de plus en plus compétent pour créer des défis complexes, et le solveur devient de plus en plus habile à les résoudre
Les résultats sont impressionnants : le système généralise bien, ne se contentant pas de mémoriser des solutions à des problèmes spécifiques

Ce qui est particulièrement fascinant, c’est que même si le système n’était entraîné que pour le codage, il est également devenu meilleur pour résoudre des problèmes mathématiques. Cela suggère qu’il développe des capacités de raisonnement génériques.

L’Évolution de l’Apprentissage par Renforcement

Lors du Sommet IA de Sequoia Capital, un représentant d’OpenAI a présenté comment l’entraînement des modèles pourrait évoluer. Actuellement, pour des modèles comme GPT-3, la majeure partie des ressources de calcul est consacrée au pré-entraînement (représenté par un grand cercle blanc), tandis que l’apprentissage par renforcement (RL) ne représente qu’une petite partie (comme une « cerise sur le gâteau »).

Mais que se passerait-il si nous pouvions augmenter considérablement les ressources consacrées à l’apprentissage par renforcement, en utilisant des méthodes efficaces comme l’auto-jeu similaire à AlphaZero ? Le graphique montrerait alors que le calcul dédié à l’apprentissage par renforcement éclipserait celui du pré-entraînement.

Cela signifie que nous pourrions prendre ces modèles et concentrer beaucoup plus l’énergie de notre matériel sur l’apprentissage par renforcement, ce qui pourrait conduire à des progrès spectaculaires.

Implications pour l’Avenir de l’IA

Si nous parvenons à recréer avec les grands modèles de langage ce qui s’est produit avec AlphaZero (zéro donnée humaine, apprentissage autonome), nous pourrions voir des résultats extraordinaires.

Rappelons-le : l’entraînement sur des données humaines a créé un modèle qui nous bat. L’entraînement sans données humaines, en laissant l’IA apprendre par elle-même, a créé un modèle qui bat le précédent 100 à 0.

Qu’est-ce que cela signifierait pour un modèle de codage ou de mathématiques ? Pour que cela fonctionne, il faut pouvoir évaluer les résultats de manière objective (comme déterminer qui gagne ou perd dans un jeu). C’est plus facile pour le codage ou les mathématiques que pour des tâches subjectives comme l’écriture créative.

Ce qui est particulièrement intéressant, c’est que l’entraînement dans un domaine spécifique semble créer une amélioration générale dans différents domaines. Comme nous l’avons vu avec Absolute Reasoner, l’entraînement à l’auto-jeu pour le codage améliore également les performances en mathématiques.

Nous semblons nous approcher de cette fusion de deux branches technologiques de l’IA, et les implications pourraient être révolutionnaires.

Conclusion

L’auto-amélioration de l’IA n’est pas un concept nouveau. Des exemples historiques comme le joueur de dames de Samuel dans les années 60, Toro pour le backgammon, Deep Blue pour les échecs, et maintenant AlphaGo pour le go, montrent tous le potentiel de l’auto-apprentissage.

Ce qui est nouveau, c’est l’application de ces techniques aux modèles de fondation comme les LLM, et la possibilité d’une boucle de rétroaction auto-renforçante qui pourrait propulser l’IA à des niveaux que nous pouvons à peine imaginer aujourd’hui.

Comme l’a dit l’un des ex-employés de Google : « Cet algorithme et cette nature auto-renforçante, c’est extraordinaire et cela s’est déjà avéré extraordinaire auparavant. »

La question reste de savoir comment appliquer ces approches à des problèmes du monde réel au-delà des environnements de jeu bien définis. Les premiers résultats avec le codage et les mathématiques sont prometteurs, mais ce n’est peut-être que le début d’une nouvelle ère dans l’intelligence artificielle.