o3 Bat des Records, mais l’IA Devient un Jeu de Privilégiés : Analyse Approfondie des Dernières Avancées

o3 Bat des Records, mais l’IA Devient un Jeu de Privilégiés

Cette analyse porte sur les progrès rapides dans le domaine de l’intelligence artificielle. Des avancées qui pourraient bientôt être moins centrées sur les États-Unis, notamment avec la nouvelle d’un chercheur chevronné d’OpenAI qui s’est vu refuser une carte verte. Cela fait seulement quelques jours depuis la sortie d’o3, le dernier modèle d’OpenAI, et il a déjà battu certains records tout en soulevant davantage de questions. Alors, sans ordre particulier et en m’appuyant sur une demi-douzaine d’articles scientifiques, voici quatre mises à jour sur l’état actuel de l’IA de pointe.

Quel est le meilleur modèle d’IA actuellement ?

Avant d’aborder combien d’argent ces modèles rapporteront à des entreprises comme OpenAI et Google, et combien ils vous coûteront, examinons d’abord quel modèle est réellement le meilleur en ce moment. C’est en fait très difficile à déterminer car cela dépend fortement de votre cas d’utilisation et du benchmark que vous consultez.

Actuellement, les deux principaux concurrents seraient o3 et Gemini 2.5 Pro. J’avais déjà évoqué comment ils étaient au coude à coude dans certains des benchmarks les plus célèbres dans ma vidéo publiée le soir de la sortie d’o3. Mais depuis, nous avons obtenu des résultats de benchmarks encore plus intéressants.

Prenons par exemple la résolution de puzzles dans de longues œuvres de fiction allant jusqu’à environ 100 000 mots. Je m’attendais honnêtement à ce que Gemini 2.5 Pro conserve son avance, car il pouvait assembler ces puzzles à diverses longueurs jusqu’aux textes les plus longs. Après tout, le contexte long est la spécialité de Gemini. Mais non, o3 prend la tête à presque toutes les longueurs de texte. Si vous savez qu’il y a un indice au chapitre 3 qui se rapporte au chapitre 16, alors o3 est le modèle qu’il vous faut.

Performance en physique et raisonnement spatial

Certains d’entre vous diront : « Qu’en est-il de la physique et du raisonnement spatial ? » Eh bien, voici un tout nouveau benchmark datant de moins de 72 heures, où nous pouvons comparer ces deux principaux concurrents. Nous avons Gemini 2.5 Pro en tête, suivi par o3 High. Et gardez à l’esprit que Gemini 2.5 Pro est quatre fois moins cher qu’o3. Notez cependant que la précision des experts humains sur ce benchmark dépasse encore largement celle du meilleur modèle.

Imaginez que vous deviez apprendre toutes sortes d’interactions physiques réalistes principalement en lisant du texte, sans expérimenter le monde. Vous auriez probablement les mêmes problèmes. Et honnêtement, cela explique en grande partie l’écart entre les deux meilleurs modèles et la référence humaine sur mon propre benchmark, Simple Bench. Ces deux modèles commencent à voir à travers toutes les astuces de mon benchmark, mais ils échouent encore assez mal sur le raisonnement spatial.

Ce n’est pas une question de Simple Bench ou du benchmark de physique, mais cela illustre le point suivant : si, par exemple, vous posez votre paume droite sur votre épaule gauche, puis passez votre bras gauche dans l’espace entre votre bras droit et votre poitrine, vous suivez probablement, mais les modèles n’ont aucune idée de ce qui se passe. Ce n’est pas dans leurs données d’entraînement, et ils ne peuvent pas vraiment visualiser ce qui se passe. Je reviendrai sur cet exemple plus tard, car bientôt, avec des outils, je pense qu’ils pourraient répondre correctement à cette question.

Comparaisons de performances sur divers benchmarks

En parlant de répondre correctement aux questions, nous avons appris qu’o3 surpasse Gemini 2.5 Pro dans un test de dépannage de protocoles de laboratoire de biologie complexes. o3, vous serez heureux de l’apprendre, obtient un score dans le 94e percentile. Il s’agit, bien sûr, d’un examen basé sur du texte et ce n’est pas la même chose que de réellement conduire ces protocoles en laboratoire.

Vous remarquerez peut-être que j’équilibre les choses, car voici maintenant un benchmark dans lequel Gemini 2.5 Pro dépasse les performances d’o3 : les mathématiques de compétition. Vous avez peut-être entendu dire qu’o3 et o4 mini ont obtenu des scores à la pointe de la technologie sur AIM 2025, qui est une compétition mathématique de lycée. Sans outils, les deux modèles ont obtenu environ 90%, mais avec des outils, ils ont dépassé 99%.

Ce que vous ne savez peut-être pas, c’est qu’AIM n’est qu’un des tests utilisés pour se qualifier pour l’USMO, un test de mathématiques basé sur des preuves nettement plus difficile. Remarquez que tous ces tests sont de niveau lycée, ce qui est très différent des mathématiques professionnelles. Quoi qu’il en soit, sur l’USMO, vous pouvez voir ici qu’o3 avec des paramètres élevés obtient environ 22% de bonnes réponses contre 24% pour Gemini 2.5. Encore une fois, Gemini est quatre fois moins cher.

Ce qui est peut-être plus intéressant, c’est que l’USMO n’est qu’une qualification pour la compétition mathématique de lycée la plus difficile : l’Olympiade internationale de mathématiques. Google a un système, Alpha Proof, qui a remporté une médaille d’argent dans cette compétition. J’ai fait d’autres vidéos sur Alpha Proof, mais je prédirais que lors de la compétition de cette année en juillet, Google pourrait bien remporter l’or.

Défis visuels et reconnaissance d’images

Revenons à des domaines plus terre à terre. Qu’en est-il des défis visuels simples comme celui-ci ? Étant donné une image, le modèle peut-il répondre : « L’écureuil grimpe-t-il la clôture ou l’écureuil descend-il la clôture avec ces deux images ? » Ou encore : « Ces deux chiens sont-ils significativement différents en taille ? » Ce benchmark s’appelle Natural Bench. Et vous l’avez probablement deviné, puisque j’alterne les performances, o3 obtient en fait un meilleur score que Gemini 2.5. Les deux restent bien sûr loin derrière les performances humaines.

Malgré cette première impression, c’est en fait Gemini 2.5 Pro qui obtient de meilleurs résultats en géolocalisation, lorsqu’on lui donne une vue de rue aléatoire et qu’il doit déterminer dans quel pays et à quel endroit de ce pays vous vous trouvez. En fait, la différence est assez frappante, 2.5 Pro dépassant largement o3 high. En y réfléchissant, ce n’est probablement pas trop surprenant étant donné que Google possède Google Maps, Google Earth, et bien sûr YouTube et Waymo.

Dernier benchmark, je promets. Mais qu’en est-il des puzzles visuels ? Quel cerf-volant a la ficelle la plus longue ici ? La réponse est C. Et globalement sur le benchmark des puzzles visuels, nous avons Gemini 2.5 Pro qui sous-performe même par rapport à o1, sans parler d’o3. Les deux restent bien sûr loin derrière l’humain moyen, sans parler d’un expert humain.

La méthode VAR d’OpenAI pour l’amélioration de la vision

Permettez-moi, si vous le voulez bien, 30 secondes supplémentaires avant d’aborder la question de l’argent, car OpenAI a essentiellement dévoilé la méthode VAR qu’ils utilisent pour s’améliorer considérablement en vision. Vous avez peut-être remarqué comment o3 semble zoomer pour répondre à une question.

Mais quel est le résumé exécutif de VAR ? Essentiellement, le modèle est submergé par une image haute résolution. Alors, ce que fait la méthode, c’est qu’elle utilise un LM multimodal pour deviner quelle partie de l’image sera la plus pertinente pour la question. Cette partie de l’image est ensuite recadrée, ajoutée à la mémoire de travail visuelle (le contexte du modèle) avec l’image originale, et soumise avec la question.

Vous pouvez voir cela en action lorsque j’ai donné à o3 cette image « Où est Charlie ? » (ou « Où est Waldo ? » comme disent les Américains). Le modèle de langage spécule que Waldo a tendance à apparaître dans des endroits comme un point de vue élevé ou une passerelle. Il décide donc de recadrer cette zone. Cependant, en accord avec les autres benchmarks que nous avons vus, il n’a pas réellement été capable de trouver Waldo, alors que moi oui, bien que cela m’ait pris environ 3 minutes, je dois l’avouer.

Vers où se dirige l’IA ? Les projections financières d’OpenAI

Voilà pour les modèles d’IA à la pointe de la technologie. Mais où tout cela mène-t-il ? Eh bien, à 174 milliards de dollars de revenus pour OpenAI en 2030, selon leurs propres estimations. Dans un instant, j’aborderai ce que cela signifie pour vous en termes de prix, mais cette prédiction me semble assez raisonnable. Même si en 2024, ils n’ont généré que 4 milliards de dollars, je peux imaginer une croissance extrêmement rapide.

Je noterais cependant que même avec les chiffres les plus importants représentant moins de 1% de la valeur du travail des cols blancs à l’échelle mondiale, quelqu’un devrait se tromper spectaculairement. Soit, comme je le soupçonne, nous n’obtiendrons pas un pays de génies dans un centre de données en 2026-2027, soit ces chiffres sont des sous-estimations spectaculaires.

L’IA devient un jeu de privilégiés

Voici donc quelques-unes de mes réflexions très résumées sur pourquoi je pense que l’IA devient, ou est peut-être déjà devenue, un jeu où il faut payer pour gagner, ou autrement dit, pourquoi vous ou moi pourrions devoir payer de plus en plus pour rester à la pointe de l’IA.

Nous avons appris l’autre jour que Google prévoit ses propres niveaux Premium Plus et Premium Pro, probablement de l’ordre de 100 à 200 dollars par mois, tout comme OpenAI et très récemment Anthropic également.

Réfléchissez-y. Si l’AGI ou la superintelligence n’était qu’à « un simple truc » près, une modification algorithmique ou une petite mise à l’échelle de l’apprentissage par renforcement (RL), alors ces entreprises seraient incitées à mettre cette AGI à la disposition de tous dès que possible, sous réserve de sécurité. Elles captureraient des parts de marché comme elles ont tendance à le faire, obtiendraient des monopoles, puis plus tard factureraient l’accès à cette AGI.

Si, en revanche, les performances peuvent être achetées par la simple augmentation de la puissance de calcul, alors quelqu’un devra payer pour cette puissance de calcul, à savoir vous. Oui, nous avons eu des gains rapides en passant de o1 à o3 et même à o4 mini, mais comme l’a dit le PDG d’Anthropic, ce post-entraînement ou raisonnement par apprentissage par renforcement va bientôt coûter des milliards et des milliards de dollars.

Et le post-entraînement n’est pas magique non plus. Il ne peut pas créer des chemins de raisonnement qui ne se trouvent pas dans le modèle de base original. C’est selon un tout nouvel article de l’Université de Tsinghua. Si vous êtes intéressé par mon analyse approfondie de cet article et du précédent que vous venez de voir, je viens de mettre en ligne une vidéo de 20 minutes sur mon Patreon.

Les défis de l’évolution des modèles d’IA

Comme l’a dit l’ancien directeur de la recherche chez OpenAI, cela ne signifie pas qu’il n’y a pas beaucoup de fruits à portée de main dans le raisonnement ou le post-entraînement. Mais il prédit néanmoins que bientôt, le raisonnement « rattrapera la pré-formation dans le sens où il fournira des rendements log-linéaires », c’est-à-dire qu’il faudra multiplier l’investissement par 10 pour obtenir un incrément de progrès supplémentaire.

Gardez également à l’esprit que Sam Altman a récemment qualifié OpenAI d’entreprise de produits autant que d’entreprise de modèles. C’est un peu comme s’ils détournaient leur attention de l’objectif AGI pour se concentrer davantage sur le rendement en dollars par dépense de calcul.

Ces entreprises n’ont qu’un nombre limité de GPU et de TPU à disposition. Chaque fois que les chercheurs tentent de créer un modèle de base plus grand ou plus de post-entraînement, Sam Altman doit évaluer cela par rapport aux limites de taux pour les nouveaux utilisateurs, aux lancements de nouvelles fonctionnalités et à la latence.

Je sais que cette recherche d’Epoch AI était principalement axée sur l’augmentation des séries d’entraînement ou le pré-entraînement des modèles de base, mais de manière très générale, elle prédisait qu’en 2030, nous aurions environ 100 000 fois la puissance de calcul effective utilisée en 2022 pour l’entraînement de GPT-4.

Projections pour 2030 : Puissance de calcul et modèles d’IA

Mais même si, hypothétiquement, d’ici 2030, nous avions cinq ordres de grandeur de plus de puissance de calcul qu’aujourd’hui, pensez à toutes les demandes concurrentes sur cette puissance de calcul qu’OpenAI aurait si elle doit atteindre 174 milliards de dollars de revenus. Leurs modèles, en nombre de paramètres, pourraient être en moyenne 1 000 fois plus grands qu’aujourd’hui.

La plupart des utilisateurs gratuits utilisaient jusqu’à très récemment un modèle d’environ 8 milliards de paramètres, GPT-4o Mini. Mais même si les utilisateurs gratuits s’habituent maintenant à des modèles de la taille de GPT-4, GPT-4.5 compte environ 20 billions de paramètres. Certains disent 12 billions, mais dans les deux cas, c’est environ deux ordres de grandeur de plus que GPT-4o.

Bien sûr, d’ici là, les utilisateurs avancés comme moi n’utiliseront pas GPT-4.5, mais probablement GPT-5 ou 6, 10 ou 100 fois plus grand. Puis il y a la base d’utilisateurs. Et même si OpenAI sert 600 millions d’utilisateurs actifs mensuels, d’ici 5 ans, il pourrait y avoir 6 milliards d’utilisateurs de smartphones. Google avec Gemini a récemment quadruplé sa base d’utilisateurs en quelques mois seulement, atteignant 350 millions d’utilisateurs actifs mensuels. Mais cela pourrait facilement être multiplié par 2, 3 ou 4. Cela nécessite de la puissance de calcul, et tout cela avant même que nous n’abordions les modèles qui réfléchissent plus longtemps.

Ensuite, il y a la latence. Deep Research est incroyable, mais cela prend en moyenne 5 à 10 minutes. Vous pouvez imaginer dépenser un ordre de grandeur de plus en puissance de calcul pour réduire ce temps à environ 5 secondes.

N’oubliez pas non plus l’utilisation par utilisateur dans ce scénario d’AGI de 2027 ou 2030. Tout le monde va bien sûr utiliser ces chatbots beaucoup plus qu’ils ne le font maintenant. C’est encore 10 fois plus, et c’est avant même d’aborder des choses comme le texte vers l’image, le texte vers la vidéo avec Sora.

Tout cela pour dire que je pourrais imaginer 12 ordres de grandeur de puissance de calcul effective utilisée par des entreprises comme OpenAI. Cela inclut des choses comme non seulement plus de puces, mais des puces plus efficaces et de meilleurs algorithmes. Cinq ordres de grandeur d’ici 2030 ne seraient pas près d’être suffisants.

Sommes-nous proches de l’AGI ?

Si vous remarquez, rien de tout cela n’exclut qu’il y ait une proto-AGI dans les années à venir, bien qu’elle soit très coûteuse. Voici ce qu’un membre senior du personnel d’OpenAI a déclaré il y a quelques jours. OpenAI, a-t-il dit, a défini l’AGI comme un système hautement autonome qui peut surpasser les humains dans la plupart des travaux économiquement valorisables. Nous n’y sommes définitivement pas encore. Loin de là. Vous auriez pu déduire la même chose avec certains des benchmarks présentés plus tôt dans cette vidéo.

Mais il poursuit : « Les vibrations AGI sont très réelles pour moi, surtout la façon dont o3 utilise dynamiquement des outils dans le cadre de sa chaîne de pensée. » Encore une fois, il dit que cela ne signifie pas que nous avons atteint l’AGI maintenant. En fait, c’est une colline sur laquelle il mourrait pour affirmer que nous ne l’avons pas atteinte.

Il conclut cependant, et je suis d’accord avec cela, que les choses iront lentement jusqu’à ce qu’elles aillent vite. Très vite. Les choses semblent rapides aujourd’hui, mais je pense que nous sommes en fait encore en train d’accélérer et que nous commencerons à aller encore plus vite.

L’intelligence artificielle devient payante

Si vous êtes prêt à dépenser de l’argent, François Chollet, un célèbre chercheur en IA, a déclaré qu’en passant de quelques centimes par requête à des dizaines de milliers de dollars par requête, vous pouvez passer d’une intelligence fluide nulle à une intelligence fluide proche du niveau humain.

Après tout, nous obtenons des choses comme le protocole de contexte de modèle d’Anthropic, où les modèles ont maintenant un langage partagé pour appeler des outils de tous types. Et nous savons que l’appel d’outils faisait partie de l’entraînement par renforcement d’o3.

Alors, combien de temps faudra-t-il avant qu’o3, qui échoue peut-être sur des questions d’anatomie comme celle-ci, puisse appeler un logiciel open-source comme OpenSIM et exécuter une simulation, entrer les paramètres pertinents et exécuter le code comme ils le font avec l’interpréteur de code, en regardant la simulation résultante ? Bientôt, presque n’importe quel logiciel pourrait être aspiré dans l’orbite des régimes d’entraînement de ces modèles.

Maintenant, je vous accorde que cela présente toutes sortes de problèmes de sécurité qui devront d’abord être résolus. C’est pourquoi je vais vous présenter les sponsors de cette vidéo, Grace Swan. Et vous pourrez peut-être voir du coin de l’œil un concours de 60 000 dollars en cours, dans lequel vous, même sans être un chercheur professionnel, pouvez essayer d’utiliser des entrées d’images pour contourner les protections des principaux modèles d’IA dotés de vision.

Je trouve assez fou que vous puissiez être payé pour exploiter ces vulnérabilités tout en renforçant la sécurité et la sûreté de l’IA. Ce sont des compétitions incroyablement légitimes avec des classements publics surveillés par OpenAI, Anthropic et Google DeepMind.

Conclusion

Alors, ne serait-il pas formidable que les gagnants de ce concours aient utilisé mon lien unique, que vous pouvez trouver dans la description ? Je m’attribuerai tout le mérite de votre victoire et me délecterai de la gloire qui en résultera.

Bien sûr, n’hésitez pas à donner votre avis dans les commentaires sur l’histoire d’actualité qui fait actuellement le buzz en ligne. Il ne fait aucun doute que nous vivons une époque folle, mais merci beaucoup d’avoir regardé jusqu’à la fin. Je ne cesserai jamais d’être reconnaissant pour votre audience.