OpenAI prévoit une ‘Automatisation Complète du Code’ d’ici la fin de l’année

OpenAI prévoit une ‘Automatisation Complète du Code’ d’ici la fin de l’année

Kevin Wheel, directeur des produits d’OpenAI et quintuple lauréat du prix du sourire le plus charmant selon AI Weekly, est récemment apparu sur le podcast Overpowered pour discuter de l’avenir du développement logiciel, du rôle que l’IA y jouera, et si nous pouvons nous attendre à voir tout le codage essentiellement automatisé par l’IA. Le présentateur mérite d’être félicité pour avoir posé des questions particulièrement incisives, faisant de ce podcast une écoute vraiment solide.

L’IA surpassera les humains en programmation dès 2025

Sans tourner autour du pot, Kevin affirme que 2025 sera l’année où l’IA deviendra définitivement meilleure que les humains en programmation. Sa justification repose principalement sur le raisonnement, plus précisément sur l’apprentissage par renforcement et les grands modèles de langage qui conduisent à des modèles de raisonnement puissants et à une croissance extraordinaire.

Lors d’une conversation avec un représentant d’Anthropic il y a quelques semaines, la question a été posée sur leur calendrier pour une automatisation à 99% du code – c’est-à-dire du code fonctionnel réel pour le front-end et le back-end. Anthropic a répondu « 2027 », mais Kevin de OpenAI estime que ce sera plus tôt :

« Au rythme où nous allons, je serais surpris si c’était 2027. Je pense que ce sera plus tôt. »

C’est presque comme si Kevin disait : « Si Anthropic annonce 2027, nous dirons 2026. »

L’évolution rapide des modèles de codage d’IA

Kevin explique comment les modèles d’OpenAI se sont améliorés rapidement :

« Lorsque nous avons lancé GPT-4, c’était un très bon modèle de codage utilisé par GitHub Copilot et d’autres services dans le monde entier. Mais quand nous avons lancé 01 Preview, c’était un bien meilleur modèle de codage, car le raisonnement est crucial pour écrire du code. »

Il détaille la progression impressionnante :

  • 01 Preview : Classé comme le millionième meilleur programmeur compétitif au monde (top 2-3% des 30-40 millions de programmeurs)
  • 01 (première version officielle) : Environ le millième meilleur ingénieur au monde dans les concours de programmation
  • 03 (à venir) : 175ème meilleur codeur compétitif au monde selon les mêmes critères
  • Modèles successeurs en développement : Déjà meilleurs que les précédents

« Je pense que cette année, du moins selon les critères de programmation compétitive, l’IA deviendra meilleure que les humains en programmation pour toujours. De la même façon que les ordinateurs ont dépassé les humains en multiplication il y a 70 ans et aux échecs il y a 15 ans, c’est l’année où l’IA surpassera les humains en programmation, définitivement. »

L’impact démocratisant de l’automatisation du code

Kevin souligne que cette évolution est bien plus importante que la supériorité de l’IA aux échecs :

« L’IA qui dépasse les humains en développement logiciel est bien plus importante que l’IA qui dépasse les humains aux échecs, car avec les logiciels, vous pouvez créer presque tout ce que vous voulez. Quel effet démocratisant cela peut avoir sur le monde si tout le monde peut créer des logiciels. »

Il cite l’exemple de personnes qui, pendant la pandémie de COVID, voulaient créer un site web pour leur ville afin de suivre diverses données liées au virus, mais ne pouvaient pas le faire faute d’ingénieurs disponibles ou de compétences nécessaires :

« Vous pourriez le faire aujourd’hui sans problème avec n’importe lequel des meilleurs modèles, et ce sera encore plus facile quand ces modèles pourront produire des quantités arbitraires d’excellents logiciels. »

Les modèles internes d’OpenAI et leurs performances

Rappelons qu’un article basé sur une fuite révélait qu’OpenAI prévoit de facturer 20 000 dollars par mois pour un agent de niveau doctorat, avec plusieurs niveaux dont un agent développeur logiciel à 10 000 dollars. Ils prévoient une croissance significative de cette nouvelle source de revenus, projetant 26 milliards de dollars en 2026 pour l’ensemble des revenus de l’entreprise.

Sam Altman a précédemment mentionné la progression des modèles de codage d’OpenAI :
– Leur premier modèle de raisonnement était le millionième meilleur au monde
– 01 était environ le 10 000ème
– 03 est environ le 175ème
– Ils ont maintenant un modèle interne qui est probablement le 50ème meilleur au monde

Sam Altman prédit un codeur surhumain, meilleur que le numéro un mondial, d’ici la fin de l’année 2025.

L’apprentissage par renforcement et les modèles de raisonnement

OpenAI utilise l’apprentissage par renforcement pour enseigner aux grands modèles de langage comment raisonner et améliorer leurs performances sur certaines tâches de codage. Leurs résultats sur les problèmes CodeForces (programmation compétitive) montrent que :

  • Le modèle 03 se situe environ au 175ème rang mondial
  • Un modèle interne (potentiellement 04) serait vers le 50ème rang

Si on suit cette trajectoire, un modèle surhumain d’ici fin 2025 semble plausible.

Débats sur l’automatisation complète du développement logiciel

Il est important de noter que ces prévisions sont contestées. De nombreuses personnes affirment qu’il est peu probable que l’IA automatise complètement le développement logiciel. Certains pensent qu’il y aura plutôt un afflux de développeurs logiciels entrant dans la profession sans savoir comment faire quoi que ce soit, s’appuyant sur l’IA pour produire du code médiocre.

Dans ce scénario, il serait encore plus important de vraiment comprendre comment fonctionne le logiciel, car ces personnes gagneraient beaucoup d’argent en corrigeant toutes les erreurs commises par l’IA.

L’écosystème des agents de codage IA

Récemment, j’ai testé Cloud Code ainsi que le nouvel agent IA Manis, et ce qui est intéressant, c’est que la pile d’applications qui deviendront les agents de codage IA est presque complète.

Beaucoup connaissent Cursor, un environnement de développement où vous pouvez utiliser le modèle de votre choix (OpenAI, Anthropic, etc.). Mais je pense que la prochaine étape sera quelque chose comme Claude Code avec une utilisation d’ordinateur, et Manis a vraiment réussi l’architecture conceptuelle.

Après avoir utilisé Claude Code pendant une semaine et demie, j’ai vu un post de Cat d’Anthropic AI qui explique les meilleures pratiques pour l’utiliser efficacement :

  1. Parler à Claude de la tâche pour qu’il puisse recueillir le contexte
  2. Lui demander de réfléchir
  3. Lui faire utiliser plus de puissance de calcul (avec des commandes comme « pense plus » ou « réfléchis davantage »)

Les composants d’un agent de développement IA complet

Voici comment je vois l’évolution de tout cela :

Actuellement, nous avons Claude Code d’Anthropic et Manis, l’agent IA. Manis utilise une machine virtuelle fonctionnant sur un système d’exploitation open source (Ubuntu, une distribution Linux). C’est gratuit, ouvert et puissant si vous savez l’utiliser.

J’ai également essayé d’installer Claude sur Ubuntu, et cela a fonctionné de façon phénoménale. Par exemple, vous lui parlez d’un projet sur GitHub, il y va, crée l’environnement, clone le projet, télécharge et installe tous les fichiers nécessaires, etc. S’il rencontre des problèmes, il commence à les résoudre.

En termes de vision, Claude Code n’en a pas vraiment (je ne parle pas de regarder une image téléchargée, mais de pouvoir écrire du code pour un jeu puis regarder le jeu être joué et prendre des décisions). Manis utilise un système de vision appelé Browser Use, qui est un modèle de vision open source capable d’interagir avec le navigateur.

Récemment, OpenAI a publié leur Operator en tant qu’API, ce qui nous permet de l’utiliser pour diverses choses. C’est un peu différent car il utilise une véritable vision plutôt que de simplement sélectionner des éléments. C’est plus comme un être humain capable de regarder la page web, de voir où se trouvent les différents boutons et de déplacer la souris pour cliquer sur une chose particulière.

Vers une automatisation complète

Nous avons presque tous les éléments nécessaires pour créer quelque chose capable de faire tout ce qu’un être humain peut faire avec un ordinateur pour écrire du code. Je ne parle pas de sa compétence à écrire du code, mais des choses qu’il est capable de faire.

Une autre façon de le voir est comme un travailleur à distance : il pourra faire tout ce qu’un travailleur à distance pourrait faire. C’est presque comme Manis plus l’opérateur d’OpenAI, ou Claude Code plus l’opérateur d’OpenAI.

Claude semble encore un peu plus comme un copilote avec lequel vous discutez. Il peut faire des choses seul pendant un moment, mais vous devez revenir. Manis, pour certaines instructions très complexes, part faire des choses tout seul pendant assez longtemps avant de revenir avec le projet terminé.

Test de projets complexes

J’ai testé Manis avec un projet complexe : créer un jeu de serpent avec des éléments de design novateurs, puis ajouter deux serpents qui s’affrontent, chacun contrôlé par deux pipelines d’apprentissage par renforcement distincts utilisant PyTorch. Le système devait créer des milliers de simulations pour que les serpents apprennent à mieux jouer, puis tester les serpents l’un contre l’autre pour voir quelle approche d’entraînement était meilleure.

C’est un projet très avancé, et je ne m’attendais pas à ce qu’il puisse le faire facilement. Le problème n’était pas qu’il ne pouvait pas comprendre comment le faire, mais qu’il y avait beaucoup de fichiers et que le projet était très volumineux. Il n’a pas pu me donner le fichier zip, car il l’avait sur son ordinateur virtuel auquel je n’avais pas accès.

Mais d’après ce que je peux dire, il a fait le travail et a créé deux pipelines différents, constatant que l’un d’eux était plus efficace. Il a mentionné qu’il pourrait créer un dépôt GitHub si je lui donnais mes identifiants GitHub.

L’avenir des agents de développement IA

Je pense que nous verrons de plus en plus d’architectures similaires à celle de Manis. Quelqu’un va rassembler tous ces éléments : une base open source, quelque chose comme Operator, une structure d’agent comme Manis ou Claude Code.

Je pense que nous avons besoin de quelque chose comme Operator, qui a une vraie vision, car avec Claude Code, il ne peut pas regarder ses propres résultats. Si je lui demande de créer un jeu, il me donne souvent du code où aucun graphique ne s’affiche, et il doit résoudre le problème en me demandant si je vois quelque chose à l’écran.

Nous sommes très proches d’avoir tous les éléments qui s’assemblent en une structure d’agent parfaite pour le développement logiciel. Ajoutez-y le meilleur modèle de codage, et nous aurons une bien meilleure idée de l’avenir de l’automatisation du développement logiciel.

Cette technologie arrivera probablement cette année, et à ce moment-là, il sera beaucoup plus facile de voir où nous en sommes dans ce processus. Actuellement, il y a un débat : ces outils aideront-ils simplement les développeurs à faire plus, comme le suggère Kevin, ou pourront-ils gérer des tâches d’ingénierie totalement nouvelles et innovantes qui nécessitent une réflexion avancée ?

Au-delà du code : création 3D et autres applications

Ce qui est fascinant, c’est que ces systèmes ne se limiteront pas à la création de logiciels. Par exemple, quelqu’un a créé un MCP (Model Context Protocol) qui permet à Claude de communiquer directement avec Blender, un logiciel de création d’objets et de scènes 3D.

Anthropic a introduit le Model Context Protocol (MCP) en novembre, permettant aux grands modèles de langage de se connecter à toutes sortes d’autres outils. Imaginez quand vous pourrez avoir quelque chose comme Claude, cette interface agentique capable d’écrire du code, puis de se connecter à Blender pour créer des mondes 3D, puis de les intégrer dans un jeu vidéo.

Conclusion : Prédictions et impact

Je ne peux pas prédire l’avenir, et il y a de nombreux ingénieurs logiciels extrêmement intelligents qui ont présenté d’excellentes explications sur les difficultés d’automatiser une grande partie du travail d’ingénierie logicielle. Ils affirment que le codage par IA sera un désastre, créera de nombreux problèmes et erreurs, et fera que les gens ne comprendront pas aussi bien comment coder.

Ils ont peut-être raison, mais en même temps, je vois les PDG de toutes ces entreprises – Satya Nadella de Microsoft, les équipes de Google, OpenAI, Anthropic, Elon Musk et son équipe xAI qui a ouvert un studio de jeux utilisant l’IA pour créer des jeux vidéo – investir énormément d’argent, de talent et d’intelligence pour résoudre ce problème.

Si nous créons un agent capable de faire du développement logiciel, il sera probablement capable d’automatiser beaucoup d’autres tâches. Ce ne sera pas une chose à usage unique.

Si je devais faire une prédiction, je prédirais un taux de chômage plus élevé ou, à tout le moins, un déplacement de certains emplois. Je ne dis pas que cela va nécessairement toucher les 20% supérieurs des développeurs logiciels ou des personnes qui travaillent avec la conception 3D, l’animation, AutoCAD, etc., mais il est difficile de voir comment cela n’aura pas un impact massif, surtout sur les tâches qui ne sont pas si compliquées.

Il y a beaucoup d’emplois qui ne nécessitent pas un talent de génie, juste la capacité de faire le travail, quelques capacités cognitives et la capacité d’exécuter des tâches simples, qu’il s’agisse de code ou d’autre chose.

Dans une vidéo précédente sur Manis, quelqu’un a mentionné que l’IA pourrait faire 85% de son travail, et nous allons en voir de plus en plus. Cela se produira en 2025, et une fois que les premiers agents de développement logiciel seront lancés, nous aurons une bien meilleure idée de l’orientation de tout cela.

Si nous leur donnons tous les outils dont ils ont besoin, toute la vision ou toute la structure d’agent, et qu’ils n’arrivent toujours pas à exécuter correctement, alors nous pourrons dire que ce n’est peut-être pas pour tout de suite. Mais en tant que personne qui teste ces choses depuis environ 2 ans, je trouve de plus en plus difficile d’imaginer des cas de test plus complexes pour ces systèmes.

Bien sûr, aucun des tests que je fais ne concerne des choses avec de grandes bases de données ou qui nécessitent d’énormes fenêtres contextuelles, ce qui pourrait être un autre obstacle. Quoi qu’il en soit, des temps très excitants nous attendent.

Featured image by Kevin Ku on Unsplash