OpenAI dévoile Codex : Une solution d’IA entièrement agentique pour le développement

OpenAI vient d’annoncer Codex, son produit d’IA agentique dédié au développement. Cette solution de codage assisté par intelligence artificielle présente des caractéristiques vraiment uniques. De plus, OpenAI a également lancé un modèle spécifiquement post-entraîné pour surpasser GPT-3 dans les tâches de programmation. Analysons ensemble toutes ces nouveautés.

Une interface révolutionnaire pour le développement

Commençons par l’interface, qui constitue selon moi l’aspect le plus innovant. L’expérience utilisateur rappelle fortement ChatGPT, mais ce n’est ni un plugin VS Code ni une version modifiée de cet éditeur. Il s’agit d’une solution native dans le cloud, plus proche d’un environnement de développement comme DevON.

Voici comment cela fonctionne :
– Vous connectez votre dépôt GitHub directement dans l’interface
– Vous avez accès aux différentes branches de votre projet
– Vous pouvez soit poser des questions sur votre base de code, soit assigner des tâches de développement à l’IA

Une fonctionnalité particulièrement intéressante, que beaucoup d’autres agents de codage n’offrent pas encore, est la possibilité d’avoir plusieurs agents travaillant en parallèle. Bien sûr, cela peut devenir complexe si tous ces agents travaillent sur la même branche, avec des risques de conflits, mais c’est précisément à cela que sert Git.

Chaque fois que vous lancez une tâche, elle apparaît dans l’interface avec l’indication « starting container ». Chaque tâche s’exécute dans son propre conteneur, avec son propre environnement et ses propres clés. On peut vraiment considérer cela comme un environnement totalement isolé pour chaque mission. L’aspect remarquable est que chaque tâche représente essentiellement un nouveau départ : le code est téléchargé pour la première fois, les commandes d’installation sont exécutées pour la première fois.

Une expérience de « vibe coding » plutôt que de codage traditionnel

Une fois qu’une tâche est terminée (par exemple après 2 minutes et 58 secondes), tout s’affiche dans l’interface de chat traditionnelle de ChatGPT. J’apprécie vraiment cette approche novatrice qui ne se limite pas au simple codage. C’est plus ce qu’on pourrait appeler du « vibe coding » que du développement traditionnel.

Prenons un exemple de tâche : « Je veux maintenir cette base de code maintenable et sans bugs. Parcourez le code et proposez des tâches qui m’aideraient à atteindre cet objectif. »

Le système propose alors des améliorations comme « éviter les arguments par défaut mutables » et présente un segment de code à corriger. En bas de l’interface, vous pouvez demander des modifications ou poser des questions complémentaires, établissant ainsi un dialogue fluide avec votre agent de codage.

Les tâches suggérées apparaissent clairement, et il suffit de passer le curseur dessus pour voir ce qui va être modifié. Un simple clic sur « code » permet d’appliquer ces changements. Pour une tâche plus complexe, vous pouvez cliquer pour éditer la description, y ajouter des précisions, la modifier autant que nécessaire, puis lancer l’exécution.

Codex CLI : une interface en ligne de commande

Codex est également disponible via une interface en ligne de commande (CLI). Le fonctionnement est similaire : vous décrivez une tâche, spécifiez une branche, et lancez l’exécution. En cliquant dessus, vous accédez à une console qui devrait sembler familière, avec l’interface de chat sur le côté gauche.

Faisons une pause pour apprécier les progrès d’OpenAI en matière de design. Bien que leur approche reste minimaliste, des détails comme la petite icône animée qui s’affiche pendant l’exécution des tâches témoignent d’une attention particulière. On peut voir une petite figure qui regarde autour d’elle, puis l’icône revient à celle d’une console de code traditionnelle.

À la fin d’une tâche longue (par exemple 3 minutes et 13 secondes), vous obtenez :
– Un résumé
– Les différences de code (diffs) sur le côté droit
– Les tests exécutés automatiquement

En passant le curseur sur les éléments, vous pouvez voir le statut des tests ainsi que les codes de débogage. Tous les fichiers modifiés sont listés, et un bouton « push » en haut à droite permet d’envoyer le code directement sur GitHub.

Un modèle spécialement conçu pour le codage

Quelques réflexions initiales sur cette technologie :

OpenAI a développé son propre modèle personnalisé pour Codex, basé sur GPT-3 (O3). Ce modèle, appelé « Codex One », utilise l’apprentissage par renforcement de bout en bout pour le rendre particulièrement performant dans les tâches de programmation.
Comme souligné lors de leur présentation en direct, ils ne se sont pas concentrés sur les benchmarks, mais sur des tâches de codage réelles et concrètes.

Un point important mentionné est que Codex, en tant que produit, ne se contente pas d’envelopper un de leurs modèles préexistants dans une interface. Ils ont développé ce modèle spécifiquement pour cet environnement de codage.

Cette dernière remarque semble être une critique implicite de solutions comme Cursor et Windsurf.

La stratégie d’OpenAI et l’acquisition de Windsurf

Parlons un instant de Windsurf. Des rumeurs persistantes, presque confirmées, indiquent qu’OpenAI aurait acquis cette entreprise pour 3 milliards de dollars. Et voilà que la même semaine, ils lancent leur propre produit d’agent de codage.

La stratégie qui se dessine est intéressante. D’un côté, OpenAI semble critiquer l’approche consistant à simplement envelopper l’un de leurs modèles existants dans un agent. De l’autre, Windsurf vient de lancer son propre modèle. On observe donc une convergence : Windsurf se rapproche d’OpenAI, OpenAI se rapproche de Windsurf, puis OpenAI acquiert Windsurf. L’évolution de cette situation sera fascinante à suivre.

La vision d’OpenAI pour l’avenir du codage et des agents

Greg Brockman, co-fondateur d’OpenAI, a partagé sa vision de l’avenir du codage et des agents en particulier. Voici ce qu’il explique :

« L’un des aspects les plus passionnants de Codex est qu’il possède des forces et des faiblesses très différentes de celles des humains. Cela signifie que vous en tirez beaucoup plus si vous commencez à le considérer non pas comme un simple outil statique que vous utilisez sans avoir à développer d’expertise, mais si vous optimisez réellement votre base de code autour de ce qu’il peut faire. Honnêtement, ce dont Codex bénéficie le plus, ce sont simplement les bonnes pratiques d’ingénierie logicielle, en termes de bases de code modulaires avec de bons tests et autres. Vous pouvez alors avancer très rapidement, et nous l’avons constaté en interne avec de nombreuses personnes chez OpenAI. »

En substance, il explique que lorsqu’un ingénieur travaillant à l’échelle de la production collabore avec l’IA, apprend ses forces et ses faiblesses, et adapte son travail en conséquence (en concevant même la base de code autour de ces caractéristiques), c’est à ce moment-là qu’on tire le meilleur parti de ces agents de codage.

C’est une réflexion fascinante qui rejoint ce que j’évoque depuis un moment : les meilleures pratiques de développement vont évoluer, les bases de code vont changer, et même les langages de programmation vont se transformer, car de plus en plus de code sera écrit par l’IA. Nous devons optimiser les langages pour qu’ils soient adaptés à cette nouvelle réalité.

Codex CLI et l’intégration avec ChatGPT

Greg Brockman a également mentionné le développement continu de Codex CLI, un agent local qui s’exécute sur votre ordinateur portable. Ils lancent aujourd’hui un modèle « mini » et prévoient également d’intégrer la connexion via ChatGPT pour faciliter la prise en main.

Cette annonce de connexion via ChatGPT est majeure, bien qu’elle ait été présentée assez rapidement. Elle souligne deux formats différents pour les agents de codage :
1. La version locale, synchrone, sur votre ordinateur
2. La version asynchrone dans le cloud (comme Codex), qui s’exécute sur son propre serveur

Brockman suggère que l’avenir réside dans la convergence de ces deux systèmes, ce qui explique probablement l’acquisition de Windsurf. Alors que Windsurf est entièrement local et que Codex fonctionne dans le cloud, la stratégie semble être de combiner le meilleur des deux mondes.

Je suis d’accord avec cette vision : il existe des cas d’utilisation pour les agents de codage locaux, où tous les fichiers sont stockés sur votre machine, et d’autres cas où le cloud est préférable. L’entreprise qui réussira à offrir la meilleure intégration des deux approches aura un avantage concurrentiel certain.

Déploiement et performances

Codex est d’abord déployé auprès des utilisateurs premium : ChatGPT Pro, Enterprise et Team dès aujourd’hui, avec un support pour les abonnés Plus et Edu à venir prochainement.

Un détail intéressant : l’exécution des tâches prend généralement entre 1 et 30 minutes selon leur complexité. C’est fascinant car même avec du « vibe coding », les tâches les plus longues ne prennent habituellement que quelques minutes.

Benchmarks de performance

Examinons quelques benchmarks de performance :

Sur SWEBench verified (précision en fonction du nombre de tentatives), Codex surpasse GPT-3 (O3) High sur toute la ligne, jusqu’à ce qu’ils convergent presque à huit tentatives.

Sur les tâches internes d’OpenAI, GPT-1 (O1) High n’atteint que 11% de réussite, tandis que Codex One atteint 75%, comparé à 70% pour GPT-3 (O3) High et 67% pour GPT-4 (O4) Mini High.

OpenAI a donc véritablement entraîné le meilleur modèle de codage parmi sa famille de modèles. Il serait intéressant de le comparer à Gemini 2.5 Pro de Google.

Codex Mini et tarification

Codex Mini, la version allégée du modèle Codex, est disponible via l’API avec la tarification suivante :
– 1,50 $ par million de tokens en entrée
– 6 $ par million de tokens en sortie
– 75% de réduction pour la mise en cache des prompts

Conclusion

Codex représente une avancée significative dans le domaine des agents de codage IA. Avec son interface cloud native, ses agents parallèles et son modèle spécialement optimisé, il offre une approche novatrice du développement assisté par intelligence artificielle.

Comment se compare-t-il à Windsurf, Cursor, Replet ou autres outils de « vibe coding » ? La convergence entre les solutions locales et cloud semble être la direction que prend OpenAI, et cette stratégie pourrait bien redéfinir notre façon de collaborer avec l’IA pour le développement logiciel.

Les meilleures pratiques de développement évoluent, et avec elles, nos outils et nos méthodes. Codex n’est qu’un avant-goût de cette transformation profonde qui s’opère dans l’industrie du développement logiciel.

Featured image by Solen Feyissa on Unsplash