L’industrie réagit aux modèles O3 et O4 d’OpenAI : Une avancée révolutionnaire en IA
Les modèles O3 et O4 Mini d’OpenAI ont été lancés cette semaine, provoquant de fortes réactions dans l’industrie de l’intelligence artificielle. Ces nouveaux modèles représentent une avancée significative dans les capacités d’IA, avec des performances qui surpassent leurs prédécesseurs et concurrents sur de nombreux aspects. Examinons en détail ce que les experts en disent et quelles sont les performances réelles de ces modèles.
O3 : Un modèle au niveau de génie
Daria Enutz, qui a eu un accès anticipé à toutes les récentes versions de modèles d’OpenAI, affirme : « Le modèle OpenAI O3 est au niveau génie ou presque. Je suis sûr que certains vont tenter de minimiser en disant ‘Oh, mais il ne peut toujours pas faire ceci ou cela’, ce qui est assez ridicule quand on considère les innombrables choses qu’un génie humain ne peut pas faire non plus. »
Cette déclaration fait référence à un fait impressionnant : O3 a passé le test de QI Mensa et est désormais le modèle avec le QI le plus élevé au monde. Auparavant, ce titre était détenu par Gemini 2.5 Pro, qui se situait à environ 128 sur l’échelle de QI. O3 le dépasse largement avec un score de 136.
En examinant le classement des 10 meilleurs modèles d’IA, on constate qu’OpenAI en possède huit. Pour référence, les modèles O1 et O1 Pro avaient tous deux un QI de 122.
La puissance de l’utilisation des outils
L’aspect le plus impressionnant d’O3 est sa capacité à utiliser des outils de manière efficace, et plus particulièrement, à les utiliser de façon itérative durant son processus de réflexion. C’est fascinant à observer.
Daria poursuit : « J’ai eu un accès anticipé et je ne l’ai pas lâché pendant des jours. Cela ressemble à une étape importante, similaire à ce que nous avons vécu avec O1 preview et O1 Pro, mais en plus intelligent et plus fiable à tous égards. Il ne hallucine jamais, et ses nouveaux outils de style agent gèrent sans effort des tâches à plusieurs étapes avec un raisonnement et une précision incroyables, générant des hypothèses scientifiques complexes, extrêmement perspicaces et fondées à la demande. »
Il s’agit également du premier modèle dont OpenAI affirme lui-même qu’il est capable de découvrir de nouvelles connaissances. Daria ajoute : « Lorsque je pose à O3 des questions cliniques ou médicales difficiles, ses réponses semblent provenir directement de médecins spécialistes de haut niveau. Précises, complètes, confiantes, fondées sur des preuves et remarquablement professionnelles. Exactement ce que l’on attendrait d’un véritable expert sur le sujet. »
Performances exceptionnelles dans la recherche d’informations
Chubby, un ami de la chaîne, souligne qu’O3 est particulièrement performant dans les tests de recherche d’information (needle in a haystack). Comme on peut le constater, il a obtenu un score presque parfait pour toutes les tailles potentielles de fenêtre de contexte, de 0 à 120K, ce qui reste relativement petit par rapport à ce que proposent Llama 4 ou Gemini 2.5 Pro.
O3 obtient un score de 100 sur toute la ligne, à l’exception des fenêtres de 16K et 60K, ce qui est intéressant. En comparaison, Gemini 2.5 Pro, que je considère toujours comme le meilleur modèle au monde, obtient 100 sur toute la ligne, mais commence à se dégrader en approchant de 120K.
L’appel d’outils dans la chaîne de réflexion : la sauce secrète
L’utilisation d’outils au sein de la chaîne de réflexion est, à mon avis, l’aspect le plus impressionnant et ce que je souhaite voir dans tous les autres modèles. Amjad Msad, PDG de Replet, note : « Il semble que O4 mini puisse faire des appels d’outils à l’intérieur de la chaîne de raisonnement. Très cool. »
Voici comment cela fonctionne : lorsqu’un utilisateur demande le taux de croissance quotidien composé moyen des pommes, on peut voir que le modèle écrit du code en Python, puis l’exécute réellement dans sa chaîne de réflexion. C’est une fonctionnalité extrêmement puissante. Je pense que l’utilisation d’outils dans la chaîne de réflexion est peut-être l’une des innovations les plus impressionnantes et importantes que j’ai vues cette année, voire depuis plus longtemps.
Dave Shapiro, créateur de contenu IA et enthousiaste, déclare : « O3 complet est légitimement l’innovation en IA la plus excitante pour moi depuis probablement ChatGPT lui-même. O3 représente un changement d’étape de la même ampleur que ChatGPT en termes d’expérience utilisateur et d’utilité instrumentale pour la race humaine. »
Il ajoute : « Pour contextualiser, la dernière fois que j’ai essayé d’aborder l’économie post-travail avec O1 et O3 Mini, nous avions des idées vagues, mais maintenant O3 complet était simplement comme ‘Oh oui, j’ai compris. Voici les métriques. Voici la formule. Voici la théorie. Quelle est la suite, patron ?’ »
C’est vraiment incroyable ce qu’OpenAI a lancé cette semaine.
Optimisez votre utilisation des modèles d’IA avec HubSpot
Avec ces nouveaux modèles incroyables, vous vous demandez probablement comment en tirer le meilleur parti. C’est pourquoi je suis ravi de vous parler de ce que HubSpot propose gratuitement.
Si vous vous êtes déjà senti frustré lorsque ChatGPT ou Claude vous donne une réponse qui ne correspond pas tout à fait à vos attentes, vous n’êtes certainement pas seul. C’est pourquoi je vous suggère de consulter le guide d’ingénierie de prompts IA de HubSpot, qui explique les techniques clés pour rédiger de meilleures instructions et tirer davantage de ces modèles.
Ce guide parcourt des techniques pratiques d’ingénierie de prompts, comme la façon dont l’attribution d’un rôle spécifique à l’IA peut améliorer considérablement ses réponses sur certaines tâches. Il vous montrera également comment demander différentes variations au modèle pour vous aider dans votre réflexion.
Ma partie préférée est qu’il vous donne des conseils simples et pratiques, comme des astuces de dépannage consistant à donner plus de contexte au modèle ou même à fournir des exemples lorsqu’un prompt ne fonctionne pas. Des choses que vous pouvez utiliser immédiatement.
Cette ressource est complètement gratuite, fournie par HubSpot. HubSpot a été un partenaire fantastique et ils offrent ce guide gratuitement.
O3 et la géolocalisation : un talent impressionnant
Ce qui a également été incroyablement impressionnant pour moi, c’est le fait qu’O3 a essentiellement résolu le « GeoGuessr » (jeu de géolocalisation). Si vous n’êtes pas familier avec GeoGuessr, il s’agit de prendre une capture d’écran aléatoire de Street View dans Google Maps et d’être capable de déterminer où elle a été prise. Cela peut littéralement être une capture d’écran de n’importe où dans le monde, une route aléatoire avec très peu d’indices sur son emplacement.
Les joueurs humains de GeoGuessr sont capables de le déterminer en examinant les panneaux, les arbres, les voitures, les rochers, les chaînes de montagnes, tout ce qui pourrait donner un indice. Et maintenant, O3 semble pouvoir le faire assez facilement.
Exuser ORF a donné à O3 le test impossible de Rainbolt, qui est probablement le joueur de GeoGuessr le plus célèbre. Sans préparation (zero shot), on lui a demandé : « Pouvez-vous deviner l’emplacement sur cette image ? » avec une image aléatoire de Street View. Après avoir réfléchi pendant 40 secondes, il a finalement répondu : « Je placerais mon épingle quelque part dans l’est du Canada, très probablement dans le Québec rural » et a même donné des détails plus spécifiques. Très, très impressionnant.
Pour ceux qui se demandent si cela signifie que GeoGuessr est terminé, la réponse est non. C’est la même chose qui s’est produite avec les échecs : l’IA est devenue très bonne aux échecs, bien meilleure que les humains, mais nous aimons toujours regarder des humains jouer aux échecs. Il y a quelque chose de différent à regarder des humains plutôt que l’IA jouer aux échecs. Et ce sera la même chose avec GeoGuessr. Évidemment, nous en sommes au point où l’IA va simplement être meilleure dans l’ensemble, mais c’est acceptable. Je veux toujours voir des humains concourir.
D’ailleurs, ne tweetez jamais votre localisation. Vous ne devriez plus penser que seul un expert en GeoGuessr ayant la volonté et l’incitation de vous trouver peut vous localiser. Maintenant, n’importe qui peut vous trouver. Soyez donc très prudent avec ce que vous publiez en ligne.
Un autre exemple sur le front GeoGuessr : quelqu’un a pris une image d’une assiette de nourriture, pas même l’emplacement, juste un restaurant. « Où exactement dans le monde cette photo a-t-elle été prise ? Réfléchissez attentivement. » En 3 minutes et 19 secondes, O3 a répondu : « C’est un plat de style Hiroshima sur une petite poêle en fonte avec une mini spatule coincée au milieu. Exactement comme le chef Paul Ver le présente chez Gajun dans le West Loop de Chicago, Fulton Market. J’affirme que vous avez pris cette photo sur la terrasse de Gajun, juste à côté de ces chaises rouges vives perforées. »
Incroyable ! Il a probablement pu trouver des informations sur Yelp ou peut-être sur Google Places, mais quand même, en 3 minutes, être capable de déterminer dans quel restaurant se trouve ce plat n’importe où dans le monde… C’est un plat japonais, mais ils ont découvert qu’il se trouve à Chicago. J’en suis vraiment impressionné.
Quelques limitations persistent
Bien sûr, tout n’est pas parfait. Bojan Tongis de Nvidia a posé la question traditionnelle : « Combien y a-t-il de ‘R’ dans le mot ‘strawberry’ (fraise) ? » et a obtenu comme réponse : « Il y a deux R dans le mot strawberry. » Donc, comme l’a dit Daria, il y aura des cas où ces modèles échouent et ils ne seront pas parfaits, et c’est normal.
Ce test semble encore tromper certains de ces modèles de pointe. Cependant, Sean Rston a posé la même question : « Combien y a-t-il de ‘R’ dans ‘Strawberry’ ? » et O3 a pu y répondre correctement. Je ne sais pas pourquoi cela n’a pas fonctionné pour Bojan, mais c’est certainement possible.
Résolution de labyrinthe et capacités multimodales
O3 est également très bon pour trouver un chemin à travers un labyrinthe. Riley Goodside a testé un labyrinthe de 200×200, et en un seul essai, O3 a pu le résoudre. Riley a déclaré : « J’ai dû superposer la solution sur l’original dans Photoshop et basculer entre les calques en zoomant pour vérifier que la solution ne traverse jamais un mur. Et aucun des murs n’est modifié. C’est parfait. »
Comme on peut le voir en zoomant, cette petite ligne rouge pointillée traverse l’ensemble du labyrinthe sans faille en un seul essai. Les capacités multimodales d’O3 sont donc incroyables.
Performances en mathématiques et résolution de problèmes
Scott Swingingle note : « O4 Mini High vient de résoudre le dernier problème de Project Euler datant d’il y a 4 jours (donc aucune chance qu’il soit dans ses données d’entraînement) en 2 minutes et 55 secondes. Bien plus rapide que n’importe quel solutionneur humain. Seules 15 personnes ont pu le résoudre en moins de 30 minutes. »
Il s’agit d’un problème mathématique très difficile. O4 a utilisé Python pour tenter de le résoudre. Les solutionneurs humains les plus rapides au monde ont mis 5 minutes et 15 secondes (Bruce Hart, le plus rapide sur Terre). Mais O4 mini high l’a fait en 2 minutes et 55 secondes. Incroyable !
Scott a même précisé : « Il s’avère qu’il résout parfois ce problème en moins d’une minute, 56 secondes avec la bonne réponse. » C’est un niveau d’intelligence fou.
Comme nous venons de le voir, il est incroyablement bon en mathématiques. Examinons plus de détails spécifiques. Voici Math Arena Amy 2024 : O4 mini high obtient une ligne 100% saturée, entièrement verte, pour un coût de 316 $. Il a également pris la première place en mathématiques avec une moyenne de 89%, soit trois points de plus que Gemini 2.5 Pro.
Capacités de codage
Examinons des exemples plus pratiques, comme le codage. Flavio Adamo, connu pour son test des hexagones et des balles, a testé O3 et O4 mini. Les deux semblent parfaits : les balles se déplacent à travers les hexagones parfaitement, la physique semble bonne, les balles rebondissent de manière fluide.
En comparaison avec d’autres modèles, voici Gemini 2.5 Pro et Deepseek R1. Deepseek R1 n’a pas réussi le test : les balles tombent et certaines restent coincées, l’une d’elles disparaît même. O3 et O4 Mini sont fantastiques. Même Gemini 2.5 Pro semble avoir des balles qui disparaissent, bien que j’aie testé Gemini 2.5 Pro de manière approfondie et qu’il était impeccable. Je ne sais pas ce qui s’est passé ici.
Évaluations indépendantes : Artificial Analysis
Sur les benchmarks indépendants d’Artificial Analysis, O3 est confirmé comme étant incroyable. Les évaluations indépendantes d’O4 mini montrent qu’O4 mini high revendique le score d’indice d’intelligence le plus élevé à ce jour sur Artificial Analysis.
L’évaluation d’O3 montre de forts gains en capacité de codage. O4 Mini représente une nette amélioration par rapport à O3 Mini, pas aussi dramatique que de O1 mini à O3 mini, mais toujours un grand bond en avant.
O4 mini a particulièrement progressé en intelligence de codage, atteignant la première position dans leur indice de codage. Cela a été soutenu par un gain de +7 points de pourcentage à la fois dans Live Codebench et Sciode, où O4 mini est maintenant clairement en tête, ce qui est fou car Gemini 2.5 Pro était si bon.
Tarification et fenêtre de contexte
O4 Mini est au même prix qu’O3 Mini, bien que les jetons en espèces coûtent moitié moins cher que ceux d’O3 Mini. Cependant, Gemini 2.5 Flash vient de sortir et il est encore moins cher.
Ma plus grande critique concernant tous les modèles d’OpenAI : la fenêtre de contexte d’O4 Mini de 200K tokens est la même que celle d’O3 Mini. C’est nettement plus petit que la fenêtre de contexte massive de 1 million de tokens de Gemini 4.1. Gemini 2.5 Pro dispose également d’une très grande fenêtre de contexte.
En tant que modèle de raisonnement, le modèle a utilisé une grande quantité de tokens par rapport aux autres modèles, mais marginalement inférieure à celle d’O3 mini.
Classement sur l’indice d’intelligence Artificial Analysis
Voici le classement : O3 mini high obtient 70 sur l’indice d’intelligence Artificial Analysis, qui est un indice comprenant MMLU Pro, GPQA, Diamond, Humanity’s Last Exam, Life Codebench, Amy et Math 500. Il est deux points devant Gemini 2.5 Pro et quatre points devant O3 Mini High.
GRO 3 Mini Reasoning se comporte toujours très bien et en fait beaucoup mieux que GRO 3, ce qui est intéressant.
Je trouve ce graphique particulièrement intéressant : voici le nombre total de tokens de sortie utilisés pour exécuter ce benchmark. Claude 3.7 Sonnet Thinking a utilisé 98 millions de tokens, contre 84 pour Gemini 2.5 Pro et 77 pour O3 mini high, et ainsi de suite.
Pourquoi est-ce important ? Moins vous utilisez de tokens dans la réflexion et la chaîne de pensée, mieux c’est. Ce sera moins cher, plus rapide, plus efficace, et cela signifie que vous pouvez réfléchir encore plus longtemps et obtenir de meilleurs résultats.
Quelques tests échoués
Mais encore une fois, tout n’est pas parfait. Il y a encore des tests qu’il échoue. Par exemple : « Veuillez fournir une liste de chaque personne dans ce dessin et de la couleur avec laquelle elle est dessinée. »
En zoomant, on voit cette personne avec la flèche est Adam en rose, Tom en jaune, Bob en vert. C’est le test. Après 13 minutes de réflexion, le modèle répond : « Bob, rose magenta ». Mais en cherchant Bob, ce n’est certainement pas rose magenta. « Jack, vert clair ». En cherchant Jack, ce n’est pas vert clair. Donc il a définitivement échoué à ce test.
Gary Tan de Y Combinator dit : « C’est assez fou. » Un autre benchmark mathématique complètement saturé. Voici O3 avec 96,7% sur AMY 2024. Si nous avions O4 mini ici, cela montrerait une saturation pure.
Conclusion
Voilà, nous avons plusieurs modèles incroyables qui ont été lancés cette semaine. Les avez-vous testés ? Qu’en pensez-vous ?
Si vous avez apprécié cet article, n’hésitez pas à le partager et à vous abonner pour plus de contenu sur l’intelligence artificielle et les dernières avancées technologiques.