o3 d’OpenAI : Un Outil d’Intelligence Artificielle Révolutionnaire pour le Raisonnement

o3 d’OpenAI : Un Outil d’Intelligence Artificielle Véritablement Révolutionnaire

L’actualité majeure cette semaine dans le domaine de l’intelligence artificielle a été sans conteste l’introduction par OpenAI d’une nouvelle série de modèles de raisonnement. Mercredi dernier, OpenAI a lancé o3 et o4 Mini, marquant une avancée significative dans les capacités de l’IA.

Les Nouveaux Modèles de Raisonnement d’OpenAI

o3 se positionne comme le modèle de raisonnement le plus avancé d’OpenAI à ce jour, tandis que o4 Mini est présenté comme un compromis compétitif entre prix, vitesse et performance. Une version plus puissante, appelée o4 Mini High, est également disponible. La tradition d’OpenAI de proposer des noms parfaitement clairs se poursuit donc.

Cette nouvelle génération de modèles de raisonnement introduit plusieurs fonctionnalités innovantes dans la famille Oer :

Intégration d’Images dans le Processus de Raisonnement

Les modèles peuvent désormais intégrer des images dans leur processus de raisonnement. Nous avions déjà observé des capacités similaires émerger dans les modèles multimodaux comme Gemini de Google, mais c’est la première fois qu’OpenAI repousse les limites de ce que peut accomplir la modalité de raisonnement.

OpenAI a déclaré à VentureBeat : « Ces modèles ne se contentent pas de voir une image, ils pensent avec elle. Cela débloque une nouvelle classe de résolution de problèmes qui mélange le raisonnement visuel et textuel.« 

Utilisation Native d’Outils

L’autre amélioration majeure concerne l’utilisation d’outils, les nouveaux modèles étant nativement formés sur des outils courants. La société a écrit : « Nous les avons entraînés à utiliser des outils grâce à l’apprentissage par renforcement, leur enseignant non seulement comment utiliser ces outils, mais aussi à raisonner sur le moment opportun pour les utiliser.« 

Le président Greg Brockman a commenté : « Ils utilisent réellement ces outils dans leur chaîne de réflexion lorsqu’ils tentent de résoudre un problème difficile. Par exemple, nous avons vu o3 utiliser environ 600 appels d’outils consécutifs en essayant de résoudre une tâche particulièrement complexe.« 

Cette avancée pourrait représenter un bond significatif dans les capacités des agents IA. La capacité à déterminer les outils appropriés pour chaque situation est l’un des déblocages les plus importants et constitue un élément clé pour permettre, à terme, des agents entièrement autonomes. Actuellement, l’une des défaillances les plus courantes des agents est soit l’incapacité à reconnaître quand utiliser un outil, soit l’échec dans l’accès approprié à cet outil.

Performance et Benchmarks

Comme pour toute nouvelle sortie de modèle, nous avons droit à une multitude de benchmarks dont la signification et l’importance ne sont pas toujours évidentes. L’utilisation d’outils semble d’ailleurs jouer un rôle crucial dans ces performances.

Par exemple, o4 Mini a réussi à obtenir un score de 99,5% sur la compétition de mathématiques Aimeme 2025, mais uniquement lorsqu’il avait accès à un interpréteur Python. Plus largement, OpenAI affirme que o3 établit de nouveaux standards dans les tâches de codage, de science et d’agentivité.

Cependant, comme je l’ai souvent mentionné, étant donné les défis liés aux benchmarks, il est beaucoup plus pertinent d’observer ce que les utilisateurs font réellement avec ces outils.

Tests Pratiques et Retours d’Utilisateurs

Kelsey Piper de Future Perfect (Vox) a déclaré que o4 Mini High est le premier modèle à passer son « benchmark personnel secret pour les hallucinations et le raisonnement complexe« . Son test implique de présenter un échiquier complexe en milieu de partie avec l’instruction « mat en un coup ». Le piège est qu’il n’existe pas de mat en un coup possible.

Les modèles d’IA sont entraînés sur de nombreux puzzles d’échecs, mais leur ensemble d’entraînement n’inclut pas nécessairement ce type de question piège. Piper a indiqué que ses tests précédents montraient que les modèles raisonnent à travers des milliers de possibilités avant d’halluciner une solution. Cela implique généralement d’ajouter des pièces supplémentaires sur l’échiquier ou des mouvements illégaux, puis de fournir de longues justifications expliquant pourquoi leur solution hallucinée est correcte.

Elle avait testé tous les modèles Claude à ce jour, ainsi que Gemini 2.5 Pro, GPT3 Mini High et GPT-3, sans qu’aucun ne comprenne que la solution était impossible. o4 Mini High est le premier à réussir ce test.

Piper explique : « J’ai inventé ce problème car je pense qu’il touche au cœur du potentiel et des limites de l’IA. Une IA qui ne peut pas remettre en question ses prémisses sera toujours limitée, tout comme une IA qui s’obstine dans ses réponses erronées. » Elle a noté que la trace de raisonnement durait 8 minutes, bien plus longtemps que toute autre requête qu’elle avait exécutée : « C’est beaucoup d’occasions de potentiellement faire des erreurs et d’halluciner une solution. Son attente qu’il y ait une solution était très forte, mais il l’a surmontée. » Elle a toutefois ajouté en conclusion : « Cela dit, son explication de l’absence de mat en un coup contenait encore quelques inexactitudes échiquéennes, que je sais qu’il connaît mieux. Donc ne faites certainement pas confiance à ces systèmes, mais sachez qu’ils s’améliorent continuellement.« 

Un soutien encore plus enthousiaste est venu de l’économiste Tyler Cowan, qui a écrit : « Je pense que c’est l’AGI. Sérieusement, essayez de lui poser de nombreuses questions, puis demandez-vous : à quel point espérais-je que l’AGI soit plus intelligente ? J’ai soutenu par le passé que l’AGI, quelle que soit sa définition, n’est pas en soi un événement social majeur. Il nous faudra encore beaucoup de temps pour l’utiliser correctement.« 

Expérience Personnelle avec o3

Benchmarks, benchmarks, blablabla… Peut-être que l’AGI est comme la pornographie : je la reconnais quand je la vois, et je l’ai vue maintenant.

Je n’ai pas eu autant d’occasions que d’habitude cette semaine de tester o3 en raison de mes déplacements, mais je suis absolument à 100% dans le camp de Tyler Cowan. Pas nécessairement sur le fait que o3 soit l’AGI, mais sur le fait que cela n’a pas d’importance. Ces modèles représentent pour moi une amélioration radicale par rapport à o1 et à ce que nous utilisions auparavant.

J’ai testé ces modèles comme partenaires de réflexion commerciale, et le raisonnement est tellement plus approfondi, tellement plus intéressant et généralement meilleur. En fait, j’ai imploré, voire pratiquement exigé, que tout le monde au sein de Super Intelligent commence à expérimenter o3 comme partenaire de réflexion pour à peu près tout. Je pense sincèrement que c’est si bon.

Je pense qu’il nous faudra encore du temps pour déterminer exactement quels sont les meilleurs cas d’utilisation pour ces modèles. Toutefois, si suffisamment de personnes comme moi exigent que tous leurs collègues l’utilisent pour chaque interaction professionnelle à partir de maintenant, je suis sûr que nous le découvrirons plus rapidement.

Cas d’Utilisation Surprenants

Un cas d’utilisation que les gens ont très rapidement identifié est que o3 semble être remarquablement bon en géolocalisation. Avec pratiquement n’importe quelle photo d’un paysage ou d’un bâtiment, le modèle peut localiser précisément sa position sur une carte.

Henry sur X a écrit : « Il y a 10 ans, la CIA se serait mise à genoux pour cette capacité. Chaque être humain vient de se voir remettre une super-arme intelligente. La situation ne fait que devenir plus étrange.« 

Je vous encourage vivement, si vous n’en avez pas encore eu l’occasion, à essayer ce modèle. Même si vous n’avez pas quelque chose de spécifique à accomplir, essayez de lui poser n’importe quelle question commerciale à laquelle vous réfléchissez actuellement. Utilisez-le comme partenaire de réflexion et de collaboration, et voyez simplement à quel point l’expérience est différente par rapport aux modèles précédents.

Il est bien sûr tout à fait possible que je sois dans l’euphorie des premiers jours d’un nouveau jouet et qu’il ne soit pas si différent en réalité, mais je ne le pense pas.

GPT-4.1 : Mise à Jour Majeure Éclipsée

Complètement éclipsée par les sorties de o3 et o4 Mini, OpenAI a également déployé une nouvelle mise à jour de leur famille de modèles non-raisonnement plus tôt dans la semaine. Lundi, GPT-4.1 a été présenté comme le successeur de GPT-4.0 et est désormais disponible pour les développeurs via l’API.

La famille GPT-4.1 comprend trois tailles différentes, avec des variantes mini et nano disponibles aux côtés du modèle complet. OpenAI affirme que la version nano sera leur modèle le plus petit, le plus rapide et le moins cher à ce jour.

Autre mise à jour majeure : les modèles disposent d’une fenêtre de contexte d’un million de tokens, égalant le récemment lancé Gemini 2.5 Pro de Google. Comme nous l’avons déjà évoqué, les fenêtres de contexte ultra-longues sont particulièrement importantes pour les assistants de codage et les agents, permettant aux utilisateurs de charger des bases de code entières dans le modèle ou d’exécuter des flux de travail agentiques plus longs.

Il semble que GPT-4.1 soit explicitement orienté vers les cas d’utilisation de codage. Un porte-parole d’OpenAI a déclaré : « Nous avons optimisé GPT-4.1 pour une utilisation réelle basée sur les retours directs, afin d’améliorer les domaines qui importent le plus aux développeurs : le codage front-end, la réduction des modifications superflues, le respect fiable des formats, l’adhésion à la structure et à l’ordre des réponses, l’utilisation cohérente des outils, et plus encore. Ces améliorations permettent aux développeurs de construire des agents considérablement meilleurs pour les tâches d’ingénierie logicielle du monde réel.« 

Si rien d’autre, c’est définitivement OpenAI qui fait preuve d’agressivité en matière de prix. Michelle Pokass, responsable de la recherche post-formation chez OpenAI, a déclaré : « Toutes les tâches n’ont pas besoin de l’intelligence ou des capacités les plus élevées. Nano sera un modèle de travail pour des cas comme l’autocomplétion, la classification, l’extraction de données ou tout autre domaine où la vitesse est la préoccupation principale.« 

L’entrepreneur Paul Gothier a noté que les sorties de cette semaine sont plus que la somme de leurs parties, publiant : « L’utilisation de o3 High comme architecte et de GPT-4.1 comme éditeur a produit un nouveau record de 83% sur le benchmark de codage polyglotte Ader. Cela a également considérablement réduit les coûts par rapport à l’utilisation de o3 High seul.« 

La Bataille du Codage avec Claude

En parlant de codage, nous avons beaucoup discuté sur cette émission du fait que, depuis un certain temps, Claude d’Anthropic est le choix privilégié des développeurs. OpenAI n’abandonne certainement pas ce combat, car parallèlement à ces nouveaux modèles, ils ont également lancé un nouvel agent de codage.

Sam Altman a publié : « o3 et o4 Mini sont super bons en codage, nous lançons donc un nouveau produit, Codex CLI, pour les rendre plus faciles à utiliser. C’est un agent de codage qui s’exécute sur votre ordinateur. Il est entièrement open source et disponible dès aujourd’hui. Nous nous attendons à ce qu’il s’améliore rapidement.« 

Comme il est open source, il existe déjà des forks qui permettent d’utiliser des modèles extérieurs à l’écosystème OpenAI. Les premières réactions semblent décentes. Gooby a déclaré : « J’ai utilisé Codex CLI avec o3, consommé environ 150 tokens en entrée en une heure, je passe maintenant à o4 Mini MDR. » Cela dit, o3 fonctionnait bien, corrigeant quelques bugs persistants.

Rashad Shravast a écrit : « Les impressions pour Codex CLI jusqu’à présent ont été un peu moyennes pour moi. Claude Code reste bien meilleur. Codex avec o4 Mini a été fantastique pour les modifications uniques de fichiers individuels, extrêmement bon pour corriger des bugs subtils lorsqu’il est spécifiquement sollicité, moyen pour l’itération et la conservation du contenu ainsi que pour les modifications multi-fichiers, terrible pour créer de la documentation et expliquer une base de code.« 

Pour l’instant, Claude peut peut-être pousser un soupir de soulagement, mais il est clair qu’OpenAI veut concurrencer dans cet espace, ce qui est également validé par le fait que mercredi, Bloomberg a rapporté que l’entreprise cherche à acquérir Windsurf.

Windsurf est probablement le concurrent le plus connu de Cursor et était valorisé à 1,25 milliard de dollars en août dernier. Il était apparemment en pourparlers pour lever des fonds à une valorisation de 3 milliards de dollars plus tôt cette année. Les rapports indiquent qu’OpenAI cherche à réaliser l’acquisition à 3 milliards, mais des sources affirment que l’accord n’a pas été finalisé et pourrait encore échouer.

Si vous vous demandez pourquoi ne pas simplement acheter Cursor, Sam Altman y a apparemment pensé également et a fait deux tentatives distinctes pour acheter la principale plateforme d’agent de codage, une fin 2022 et une autre début 2023. En fait, selon des sources de CNBC, OpenAI aurait rencontré 20 entreprises dans le domaine du codage IA avant de trouver un accord avec Windsurf.

Conclusion

Dans l’ensemble, ce fut une semaine extrêmement chargée dans l’univers d’OpenAI, et j’ignore encore une demi-douzaine d’histoires qui auraient pu mériter attention.

Pour conclure, je vous laisse avec ma forte intuition : allez essayer o3, jouez également avec o4 Mini. Ces modèles donnent vraiment l’impression d’être d’une qualité différente et offrent une expérience distincte. Je pense qu’ils vont ouvrir de nouveaux types de cas d’utilisation pour l’IA.

Pour l’instant, c’est tout pour ce résumé quotidien de l’IA.