Actualités IA : Mises à jour majeures de GPT-4o, Gemini 2.5 Pro, nouveau DeepSeek, MCP partout et nouveaux modèles d’image
GPT-4o reçoit des améliorations spectaculaires
Vous voulez entendre quelque chose de fou ? GPT-4o a reçu des mises à jour massives. En fait, il n’est pas seulement devenu le meilleur en génération d’images, mais il est également désormais le meilleur codeur non-raisonneur du marché, et cela est vérifié par des benchmarks indépendants.
Selon Artificial Analysis : « La mise à jour de GPT-4o d’aujourd’hui est vraiment importante. Elle dépasse Claude 3.7 Sonnet (non-raisonneur) et Gemini 2.0 Flash dans notre indice d’intelligence et est maintenant le modèle non-raisonneur leader pour le codage. »
Sur l’indice d’intelligence (et non l’indice de codage), GPT-4o est passé d’un score de 41 en novembre 2024 à un impressionnant 50, se positionnant juste derrière DeepSeek V3, le modèle récemment sorti. C’est assez fou.
Pourquoi OpenAI investit-il autant de temps et d’efforts dans un modèle plus ancien comme le 4o ? Il s’avère qu’il y a une raison très explicite. Pour ceux qui pensaient que le phénomène DeepSeek R1 signifiait que tout le monde allait commencer à dépenser moins en puissance de calcul, vous auriez vraiment dû écouter les experts concernant le paradoxe de Jevons : lorsque les choses deviennent moins chères, nous en voulons davantage, et c’est exactement ce que nous observons.
OpenAI ne peut même pas obtenir suffisamment de GPU pour affiner et améliorer GPT-4.5. Nous ne parlons pas d’une petite startup, mais d’OpenAI, partenaire de Microsoft, une entreprise multimilliardaire qui a levé des milliards et des milliards de dollars. Ils ne peuvent même pas obtenir suffisamment de ces puces.
Mais ce ne sont pas toutes les améliorations. GPT-4o est désormais meilleur pour suivre des instructions détaillées, particulièrement les prompts contenant plusieurs requêtes. Il offre une capacité améliorée pour résoudre des problèmes techniques complexes de codage, une meilleure intuition et créativité, et utilise moins d’emojis.
La version mise à jour de GPT-4o est disponible dès maintenant pour tous les utilisateurs payants. Les utilisateurs gratuits y auront accès au cours des prochaines semaines.
Cependant, OpenAI a déjà dû mettre en place des limites de débit sur la capacité de génération d’images de GPT-4o, car elle a largement dépassé leurs attentes. Je constate déjà que c’est super lent. J’ai commencé à remarquer il y a quelques semaines que GPT-4o pour les requêtes normales est presque inutilisable à ce stade en raison de sa lenteur. Ils doivent vraiment l’accélérer, car l’un des facteurs que je recherche dans mon modèle de prédilection est la vitesse.
Gemini 2.5 Pro : le nouveau champion du codage
L’autre grande nouvelle de cette semaine était la sortie de Gemini 2.5 Pro, qui démarre en force. Il est incroyable pour le codage. C’est un modèle de raisonnement complet et incroyablement rapide. J’ai déjà réalisé une vidéo complète à ce sujet, donc je ne vais pas trop approfondir, mais c’est le meilleur modèle de codage que j’ai jamais utilisé. Et encore une fois, je tiens à souligner qu’il est super rapide.
Je pense que les gens sous-estiment l’importance de la vitesse, en particulier pour les cas d’utilisation agentiques et, tout aussi important, pour les cas d’utilisation de codage. Nous avons maintenant le meilleur nouveau modèle de codage au monde, et le codage est vraiment tout ce que je fais pendant mon temps libre en ce moment, donc bien sûr j’étais ravi de voir notre prochaine actualité.
Gemini 2.5 est maintenant disponible dans Windsurf et, plus important encore, il est également disponible dans Cursor. Je vais donc le tester en profondeur. Ce qui est formidable avec Gemini 2.5 Pro, c’est qu’il dispose d’une fenêtre de contexte d’un million de tokens, soit environ 10 fois plus que Cloud 3.7. Je veux vraiment voir comment cela affecte sa capacité à comprendre la base de code dans son ensemble, car j’ai certainement moins d’un million de tokens de code sur les projets sur lesquels je travaille actuellement. Je vais donc le tester et vous ferai un compte-rendu.
DeepSeek V3 : excellence en codage, mathématiques et logique
Cette semaine a vraiment été incroyable pour les nouveaux modèles. Une nouvelle version de DeepSeek V3 est sortie il y a quelques jours. Ils n’ont pas fait beaucoup de bruit autour de cette annonce. Il s’agit d’un nouveau point de contrôle dans la série V3, donc ce n’est pas un modèle complètement nouveau, mais il excelle vraiment en codage, en mathématiques et en logique. Il est rapide, open source, et vous pouvez le télécharger, bien qu’il s’agisse d’un modèle massif, vous pourriez donc avoir du mal à l’exécuter localement.
Voici les scores : DeepSeek V3 (en bleu foncé rayé) par rapport au précédent DeepSeek V3, Quen Max, GPT-4.5 et Claude Sonnet 3.7. Il serait intéressant de comparer avec le nouveau GPT-4o, mais regardez : DeepSeek V3, un modèle non-raisonneur, comparé à tous ces autres modèles frontières. GPT-4.5 et Claude 3.7 sont tous deux à code fermé, et il performe extrêmement bien, en particulier en mathématiques. Regardez ce score AMI 2024, dominant absolument les autres modèles de cette comparaison. Et il est à poids ouverts. Ils sont également passés à une licence MIT, qui est très permissive. Allez le télécharger et amusez-vous.
ARC AGI 2 : un nouveau benchmark pour tester les capacités AGI
La société Arc Prize a maintenant publié ARC AGI 2, leur nouveau benchmark pour tester les capacités AGI des modèles. Nous pouvons voir les scores ici : Claude 3 Opus a actuellement le score le plus élevé. Sur ARC AGI 1, il a un score de 75,7%, mais pour ARC AGI 2, seulement 4%. Et regardez, le coût est de 200$ par tâche pour Claude 3 Opus.
En comparaison, le panel humain pour ARC AGI 1 a obtenu 98%, donc pas parfait, mais pour ARC AGI 2, ils ont obtenu 100%. J’adore cela : le fait que les humains puissent obtenir un score parfait sur ce test, mais que les meilleurs modèles obtiennent des scores si bas, c’est pour moi le benchmark parfait pour tester l’AGI. Et le coût par tâche pour les humains ? 17$. Regardez plus bas : Claude 3 Haiku à 445$ et ainsi de suite.
Si vous n’êtes pas familier avec les benchmarks ARC Prize, ce sont essentiellement des tâches qui vous demandent de prendre une compréhension d’une chose et de l’extrapoler pour comprendre d’autres choses. Voici un exemple : nous avons une entrée ici et tout ce que nous faisons est de la regarder. Nous avons une grille de 30×30, nous avons évidemment ce délimiteur ici, nous avons un tas de couleurs et de carrés ici, puis nous avons un tas de sortes de taches grises au milieu. Le but est d’essayer de rechercher des modèles entre les deux exemples d’entrées et de sorties, puis de les recréer ici.
Si vous voulez l’essayer, vous pouvez. Je laisserai un lien ci-dessous. Le but est que ce soit facile pour les humains mais vraiment difficile pour l’IA. Et une fois de plus, il y a un prix d’un million de dollars. Félicitations à Arc Prize pour le nouveau benchmark.
L’adoption généralisée du protocole MCP
Zapier a annoncé son propre MCP (Model Context Protocol), c’est essentiellement comme obtenir 10 000 outils en même temps pour MCP. Tout ce que vous avez à faire est de vous inscrire, configurer les applications que vous souhaitez, puis ils vous donneront l’URL du serveur MCP. Je suis personnellement un grand fan de Zapier, je l’utilise depuis des années. C’est excellent pour l’automatisation, et le fait que je puisse maintenant y connecter directement mes agents et mon IA est tout simplement fantastique.
Mais ce n’est pas tout, OpenAI a également adopté MCP. Il devient rapidement évident que MCP est la norme, et fait maintenant partie de leur API Agents. Vous pouvez désormais utiliser MCP pour donner des outils à vos agents.
Et ce n’est pas tout, MCP a maintenant été adopté par Microsoft, qui introduit le protocole de contexte de modèle dans Copilot Studio. Il semble que partout où vos agents vivent, c’est là que vous pourrez utiliser MCP. C’est une grande victoire pour Anthropic, qui a établi la norme. Même s’il s’agit d’une norme à l’échelle de l’industrie, celui qui crée la norme peut certainement influencer les choses, et c’était définitivement le cas cette semaine.
L’essor des modèles de génération d’images
Cette semaine a vraiment été celle de la génération de texte en image. Non seulement nous avons eu GPT-4o qui a dominé les gros titres avec la génération de texte en image, mais Revai a également sorti son modèle de texte en image, et il a l’air vraiment bon. Regardez tout cela : le texte est précis, tous les différents styles sont excellents. Voici un morceau de steak réaliste sur un bloc de sel, de la nature, plus artistique… Et selon les classements d’Artificial Analysis, Reev Image 1.0 se classe haut en qualité, basé sur 100 000 votes d’utilisateurs. Half Moon est Reev.
Comme je l’ai dit, c’était la semaine de la génération de texte en image. Adio a lancé sa version 3.0, qui a également l’air phénoménale. Bien sûr, Audiogram affirme qu’ils obtiennent le score le plus élevé dans le classement ELO, mais vous pouvez faire des choses comme remixer, agrandir, préférence de style, etc. Donc hautement contrôlable, ce qui est génial. Et regardez ces images, elles sont magnifiques, hyperréalistes, et vous avez beaucoup de contrôle sur elles.
Bien que GPT-4o ait apparemment reçu beaucoup d’attention de la presse cette semaine, il y a plusieurs autres modèles d’image fantastiques qui viennent d’être publiés cette semaine. Alors, allez les découvrir.
OpenAI : croissance des revenus malgré les défis
Revenons à OpenAI. Il s’avère qu’ils génèrent maintenant de l’argent, bien qu’ils soient toujours déficitaires. Selon CNBC, OpenAI s’attend à ce que ses revenus triplent pour atteindre 12,7 milliards de dollars cette année, selon des sources. L’IA ne ralentit pas.
On me demande parfois : « Pensez-vous que c’est une mode ? Pensez-vous que toutes ces dépenses ne vont pas générer de valeur ? » Pas une chance. Je suis évidemment extrêmement biaisé, je consacre ma vie à cela, mais la quantité de valeur que je tire personnellement de tous ces outils d’IA est énorme. Mon équipe utilise ces outils tous les jours, ma famille les utilise tous les jours, toute la journée. Ils y ont été exposés parce que je leur en ai parlé, je leur ai expliqué comment les utiliser.
Je pense en fait que le problème est un problème d’éducation. Les gens ne savent tout simplement pas ce qui est possible, et c’est le problème que j’essaie de résoudre. Je veux que tout le monde dans le monde comprenne comment utiliser ces outils d’IA et comment en tirer le meilleur parti. C’est ma mission.
Changements organisationnels chez OpenAI
Quelques autres notes concernant OpenAI. Plus tôt cette semaine, OpenAI a annoncé des changements clés dans la C-suite. Sam Altman va détourner son attention des opérations quotidiennes pour se concentrer davantage sur la recherche et les produits, ce qui est très intéressant, tandis que le rôle du directeur des opérations Brad Lightcap s’élargira pour superviser les activités commerciales et les opérations quotidiennes.
SoftBank, juste le mois dernier, s’apprêtait à investir 40 milliards de dollars dans OpenAI à une valorisation de 260 milliards de dollars, ce qui en ferait l’une des sociétés privées les plus précieuses de tous les temps.
Quen QVQ Max Think : un modèle de raisonnement visuel open source
Quen a publié QVQ Max Think with Evidence, un modèle de raisonnement visuel open source. Ces entreprises chinoises qui ouvrent tout leur code font vraiment pâle figure les entreprises américaines, et vous savez quoi ? Je suis tout à fait pour. J’apprécie vraiment l’open source, car une fois que vous pouvez l’obtenir vous-même, vous pouvez façonner l’IA comme vous le souhaitez.
Ce modèle peut non seulement comprendre le contenu des images et des vidéos, mais aussi analyser et raisonner avec ces informations pour fournir des solutions allant des problèmes mathématiques aux questions quotidiennes, du code de programmation à la création artistique. QVQ Max a démontré des capacités impressionnantes.
Voici un exemple de ce qu’il peut faire : téléchargeons ces deux images et demandons quelle est la relation entre les scènes représentées dans ces deux images. C’est un modèle de raisonnement avec capacité de vision. Vous pouvez voir qu’il réfléchit en ce moment, et voilà, il vous donne une réponse.
Le seul problème est que Quen n’est pas ouvert aux utilisateurs américains. Vous devez avoir un numéro de téléphone basé en Chine pour l’utiliser. Mais ce n’est pas grave, nous allons obtenir ce modèle sur des fournisseurs d’inférence qui permettent aux utilisateurs américains de l’utiliser, et vous pouvez également le télécharger vous-même.
C’est aussi un modèle relativement volumineux, donc oui, vous allez probablement avoir du mal à l’exécuter. Peut-être que nous obtiendrons des versions quantifiées, mais nous voulons exécuter la version complète, et j’espère que certains des fournisseurs géniaux le feront bientôt.
C’est toutes les actualités pour cette semaine. Si vous avez apprécié cette vidéo, n’hésitez pas à laisser un like et à vous abonner.

