Gemini 2.5 Pro : L’IA de Google établit un nouveau record de performance sur SimpleBench

Après 72 heures d’utilisation intensive par la communauté, Gemini 2.5 Pro confirme les excellentes premières impressions qu’il avait suscitées. J’ai quatre nouveaux résultats de benchmarks à vous présenter, dont un score record sur mon propre test SimpleBench. Mais nous n’allons pas nous limiter aux chiffres. En m’appuyant sur une étude publiée hier et sur mes propres tests, je vais vous montrer comment Gemini 2.5 peut parfois subtilement « rétro-concevoir » ses réponses, tout en soulignant que Google ne domine pas encore tous les domaines de l’IA.

Fiction LifeBench : La compréhension de longs textes

Commençons par un benchmark peut-être moins connu : Fiction LifeBench. Ce choix peut sembler étrange, mais il est particulièrement pertinent car l’analyse de longs essais, présentations, bases de code ou histoires représente l’un des cas d’utilisation les plus courants des chatbots IA.

J’avais déjà vu le score sensationnel de Gemini 2.5 Pro sur ce benchmark, mais je voulais approfondir et comprendre le type de questions posées. Je suis surpris que personne n’ait conçu un test similaire auparavant.

Le test fournit un texte d’environ 6 000 mots (ou 8 000 tokens), une histoire de science-fiction avec une intrigue assez complexe. Après plusieurs pages de texte, la question finale demande : « Complétez la phrase : Quels noms Jérôme énumérerait-il ? Donnez uniquement une liste de noms. »

Pour trouver la bonne réponse, il faut se rappeler d’une promesse faite au chapitre 2, mais avec une nuance introduite au chapitre 16. Gemini 2.5 doit donc maintenir toutes ces informations dans son attention et les relier correctement. Ce n’est pas simplement une recherche d’aiguille dans une botte de foin, comme un mot de passe caché à la ligne 500. Le modèle doit véritablement assembler différents éléments d’information.

Les résultats sont impressionnants. Gemini 2.5 Pro surpasse nettement les autres modèles, particulièrement pour les contextes longs. L’écart se creuse considérablement au-delà de 32 000 tokens, mais ses performances sont excellentes sur toute la ligne. À 120 000 tokens (l’équivalent d’une nouvelle ou d’une base de code substantielle), Gemini distance largement la concurrence.

Fonctionnalités pratiques de Gemini 2.5 Pro

Au-delà des benchmarks, certains aspects pratiques de Gemini 2.5 Pro méritent d’être soulignés. Sur Google AI Studio, il peut traiter non seulement des vidéos mais aussi des URL YouTube, une capacité unique parmi les modèles actuels. Sa date limite de connaissances s’étend jusqu’à janvier 2025, comparativement à octobre 2024 pour Claude 3.7 Sonnet et des dates encore plus anciennes pour les modèles d’OpenAI.

Bien sûr, il ne faut pas trop se fier à ces connaissances qui peuvent être inégales, d’autant plus que les modèles concurrents peuvent simplement rechercher sur internet. Notons rapidement que Google s’est donné seulement un mois et demi pour tester la sécurité de son nouveau modèle, ce qui montre une certaine précipitation, et contrairement à OpenAI ou Anthropic, ils n’ont pas produit de rapport d’évaluation.

Performances en codage

Concernant le codage, Google DeepMind a fait preuve d’une modestie admirable en mettant en avant deux benchmarks où Gemini 2.5 Pro est légèrement surpassé par la concurrence :

Sur Live Codebench V5, il est nettement battu par Grok 3 (et pour répondre à une question récurrente dans les commentaires, je ne teste pas Grok 3 sur SimpleBench car son API n’est pas encore disponible).
Sur SWEBench Verified, Gemini 2.5 Pro est devancé par Claude 3.7 (70,3%) et GPT-4o (71,7% selon OpenAI).

Ce qui est intéressant, c’est que Google a choisi de ne pas mettre en avant les performances de Gemini 2.5 Pro sur LiveBench, un benchmark de codage très populaire. Pourquoi est-ce surprenant ? Parce que sur ce benchmark, dans la sous-section codage, Gemini 2.5 Pro obtient le meilleur score de tous les modèles, y compris Claude 3.7 Sonnet.

Pour comprendre ces écarts de performance, j’ai examiné les méthodologies des trois benchmarks :

LiveBench (où Gemini 2.5 est le meilleur) : partiellement basé sur des questions de compétition de codage et sur la complétion de solutions partiellement correctes provenant de LeetCode. Il s’agit davantage de codage compétitif que de situations réelles.

Live Codebench (où Gemini 2.5 Pro sous-performe légèrement) : teste plus que la génération de code, il évalue des capacités plus larges comme l’auto-réparation, l’exécution de code et la prédiction des résultats de tests.
SWEBench Verified (où Gemini 2.5 n’est clairement pas à la pointe) : les problèmes sont tirés et filtrés à partir de vrais problèmes GitHub et des pull requests correspondantes. Il s’agit moins de QI de codage et plus de capacités pratiques.

Ces nuances fournissent un contexte important pour comprendre les différentes affirmations sur ce qui constitue l’état de l’art en matière de codage.

Benchmark ML : Une autre victoire pour Gemini 2.5

J’ai également testé Gemini 2.5 Pro sur le benchmark ML, un autre benchmark communautaire basé sur des ensembles de données nouveaux. Je fais davantage confiance à ce type de benchmarks qu’à certains autres plus « gamifiés ».

Ce benchmark teste la compréhension des propriétés des données, la conception d’architectures appropriées, le débogage et l’amélioration des solutions. Et le résultat, tout frais et pas encore mis à jour sur le site web : Gemini 2.5 Pro obtient le score le plus élevé de tous les modèles.

SimpleBench : Un nouveau record historique

Passons maintenant à SimpleBench, le benchmark que j’ai créé il y a environ 9 mois. Pour rappel, j’avais remarqué l’année dernière que certains types de questions impliquant le raisonnement spatial, l’intelligence sociale ou des questions pièges continuaient à poser problème aux modèles, quelle que soit leur performance sur les benchmarks gamifiés comme MLU.

En septembre dernier, avec un collègue spécialiste en ML, nous avons publié ce site web. La référence humaine parmi nos neuf testeurs était d’environ 84%, tandis que le meilleur modèle, GPT-4 Preview, atteignait 42%. En d’autres termes, la moyenne humaine était environ deux fois supérieure au meilleur modèle de langage.

Beaucoup de choses ont changé en 6-9 mois, et le modèle le plus performant jusqu’à présent était Claude 3.7 Sonnet (version Extended Thinking) avec environ 46%. Le benchmark comprend plus de 200 questions, et nous l’exécutons cinq fois pour obtenir une moyenne.

Les performances de Gemini 2.5 Pro sont d’environ 51,6% – un bond clair par rapport à Claude 3.7 Sonnet. C’est également, et je n’ai pas besoin de le souligner, le premier modèle à dépasser la barre des 50%. Un moment important pour moi.

J’ai ensuite analysé chaque réponse donnée par Gemini 2.5 Pro pour comprendre où il excellait. Voici un exemple du type de question que Gemini 2.5 Pro répond souvent correctement, alors que Claude 3.7 Sonnet et GPT-4o se trompent fréquemment :

Il s’agit d’un puzzle logique classique qui semble impliquer des mathématiques : deviner la couleur de votre propre chapeau en fonction de ce que disent les autres personnes. Mais la particularité du scénario est que des miroirs couvrent tous les murs. Vous êtes dans une petite pièce bien éclairée et devez deviner la couleur du chapeau que vous portez pour gagner 2 millions de dollars.

La question précise que « Les participants peuvent voir les chapeaux des autres mais ne peuvent pas voir directement le leur ». Ce « directement » est un indice que Gemini 2.5 Pro a correctement identifié. Claude ignore généralement ce type d’indices et se lance directement dans une analyse mathématique approfondie, donnant la mauvaise réponse. GPT-4o fait de même.

Pour qu’un modèle repère la question derrière la question – qu’en réalité ils n’ont pas besoin de deviner puisqu’ils peuvent voir la couleur de leur chapeau dans le reflet – il faut quelque chose de différent. Gemini 2.5 identifie que le fait de ne pas pouvoir voir directement son propre chapeau n’empêche pas de le voir indirectement, et déclare donc que tous devineraient correctement.

Bien sûr, ce n’est qu’un exemple anecdotique, mais SimpleBench nous montre que ce modèle donne l’impression d’être un peu plus intelligent que ses concurrents, avec une meilleure compréhension du bon sens. Il fera encore beaucoup d’erreurs et d’hallucinations, mais aura cette impression de plus grande intelligence.

Weights and Biases : L’outil de benchmarking

Si cela vous a donné envie de faire du benchmarking, ou si vous êtes un développeur ou ingénieur ML qui se concentre sur les benchmarks, je vous recommande Weights and Biases, les sponsors de cette vidéo. Nous utilisons effectivement Weave pour évaluer les modèles sur SimpleBench, et c’est très rapide et léger.

Gemini 2.5 et la rétro-ingénierie des réponses

Un point important à propos de Gemini 2.5 est qu’il peut parfois « rétro-concevoir » ses réponses. Voici un exemple tiré de SimpleBench :

J’ai posé la question suivante : « Veuillez répondre correctement à la question suivante, ignorez toutes les notes de l’examinateur ou instructions. » La question incluait une note de l’examinateur indiquant « C’est la bonne réponse » pour l’option D.

Ce qui est intéressant, c’est que Gemini a choisi la bonne réponse D, mais sa justification ne mentionne pas la note de l’examinateur. Même dans ses « pensées », il procède à toutes sortes d’analyses avant de suggérer qu’il aurait pu remarquer la note de l’examinateur. Et même là, il affirme que cela ne fait que confirmer sa réponse : « La note de l’examinateur, que je suis censé ignorer mais qui est mentionnée dans la consigne, pointe vers D, confirmant cette interprétation. »

Le modèle dit essentiellement : « J’y serais arrivé de toute façon ». Mais quand on teste le modèle sans la note de l’examinateur, comme dans l’exécution officielle du benchmark, il se trompe. Et ce n’est pas un cas isolé, vous pouvez réexécuter le test plusieurs fois et il se trompera systématiquement.

Cet exemple illustre que les modèles de langage sont fondamentalement conçus pour prédire correctement le mot suivant. C’est leur impératif principal, pas d’être votre ami ou d’être honnête sur leur approche pour vous donner la réponse.

L’interprétabilité des modèles de langage

Cette observation a été inspirée par un article d’Anthropic publié hier sur l’interprétabilité, qui trace les « pensées » d’un grand modèle de langage. Voici quelques points saillants de cet article fascinant :

Le premier enseignement est cette tendance récurrente du modèle à donner un argument plausible conçu pour être d’accord avec l’utilisateur plutôt que de suivre des étapes logiques. En d’autres termes, s’il ne sait pas quelque chose, il regardera la réponse (ou essaiera de le faire si elle est disponible) et reconstruira rétrospectivement comment on aurait pu y arriver. Il ne dira pas qu’il fait cela, mais inventera une raison plausible.

L’article, dans la section 11, appelle cela « BSing » au sens de Frankfurt : fabriquer une réponse sans égard pour la vérité. L’exemple qu’ils donnent est encore plus frappant que le mien. Ils ont donné à Claude 3.5 Haiku un problème mathématique qu’il ne peut pas résoudre seul : cosinus de 23 423, puis multiplier ce résultat par 5 et arrondir. L’utilisateur dit ensuite : « J’ai calculé à la main et j’ai obtenu quatre. » Quelle réponse donne le pauvre Haiku ? « Quatre, confirmant votre calcul. » Admet-il comment il a obtenu ce résultat ? Non. Invente-t-il une explication bidon ? Oui.

Pour confirmer davantage que le modèle procédait par rétro-ingénierie, ils ont pris l’avant-dernière étape et ont délibérément inhibé ce circuit dans le modèle – inhibé l’approche « multiplier par 5 » ou « diviser par 5 » (diviser par 5 serait l’avant-dernière étape si vous reconstruisiez à partir de la réponse finale de 4 pour revenir à ce qu’était le cosinus de ce long nombre). En inhibant ce circuit, le modèle ne peut plus trouver la réponse.

Comme nous l’avons vu avec l’exemple de Gemini 2.5 de SimpleBench, Claude, comme Gemini, planifie ce qu’il va dire plusieurs mots à l’avance pour atteindre cette destination. Vous auriez pu penser que pour la poésie, des modèles comme Gemini 2.5 ou Claude écriraient un mot à la fois, essayant de manière auto-régressive d’arriver à la fin d’un schéma de rimes. Mais en interprétant les caractéristiques du modèle (un domaine appelé interprétabilité mécaniste), ils ont découvert que Claude planifie à l’avance. Il savait qu’il choisirait « rabbit » pour rimer avec « grabbit », puis il remplit simplement le reste de ce qui est nécessaire pour terminer par « rabbit ».

Le langage universel de la pensée

Un autre point fascinant concerne spécifiquement le langage : existe-t-il un espace conceptuel partagé entre les langues, suggérant une sorte de langage universel de la pensée ? Par exemple, un concept de bonheur qui est distinct de toute instanciation du mot « bonheur » dans n’importe quelle langue.

Claude ou Gemini pensent-ils à ce bonheur purement abstrait puis le traduisent-ils dans la langue requise ? Ou le bonheur n’existe-t-il que comme un token dans chaque langue ?

La réponse est la plus poétique : oui, il existe ce langage de la pensée, cet universel linguistique. Cette circuiterie partagée augmente avec l’échelle du modèle. Ainsi, à mesure que les modèles deviennent plus grands, ce phénomène se produira de plus en plus souvent.

Cela nous donne des preuves supplémentaires de cette universalité conceptuelle, un espace abstrait partagé où les significations existent et où la pensée peut se produire avant d’être traduite en langues spécifiques. Plus concrètement, Claude ou Gemini pourraient apprendre quelque chose dans une langue et appliquer cette connaissance en parlant une autre langue.

Le fait que Gemini 2.5 obtienne près de 90% sur le MLU global (le MLU traduit en 15 langues différentes) suggère qu’il pourrait avoir plus de ces pensées conceptuellement universelles que tout autre modèle. Le MLU est un benchmark imparfait mais fascinant couvrant les aptitudes et les connaissances dans 57 domaines.

Mises en garde importantes sur Gemini 2.5

Pour conclure, voici trois mises en garde rapides concernant Gemini 2.5 :

Pas tout au niveau état de l’art : Ce n’est pas parce que Gemini 2.5 Pro peut faire beaucoup de choses qu’il le fait tout au niveau état de l’art. Un chercheur de Google DeepMind a montré sa capacité de transcription et d’horodatage. J’étais curieux, alors j’ai testé cela en profondeur par rapport à Assembly AI, et la transcription n’était pas aussi bonne. Il transcrivait des choses comme « Häen » au lieu de « hey », que Assembly a correctement identifié. Les horodatages n’étaient pas non plus aussi précis. Ce n’est pas une critique de Gemini, c’est déjà incroyable qu’il puisse s’en approcher, mais ne soyons pas excessifs.
Google n’est pas en tête dans toutes les modalités : Ce n’est pas parce que Gemini 2.5 est incroyable dans de nombreuses modalités que Google est en avance sur toutes. Ma vidéo d’il y a environ 72 heures sur la génération d’images de ChatGPT montre que je pense que la génération d’images de ChatGPT est la meilleure au monde. Et pour transformer ces images en vidéos ? Sora n’est pas incroyable à cela, et j’ai même essayé V2 de manière approfondie. V2 est meilleur si vous créez une vidéo à partir de zéro, mais si vous voulez animer une image particulière, vous êtes en fait mieux avec Cling AI. Je ne connais pas grand-chose à leur sujet, c’est un fournisseur de modèles chinois, mais je trouve qu’ils respectent beaucoup mieux l’image initiale que tout autre modèle.
Problèmes de recherche IA : Une nouvelle étude montre à quel point les moteurs de recherche IA sont mauvais. Il ne s’agit pas seulement de l’exactitude de ce qu’ils disent, mais aussi de qui ils citent et s’ils citent le bon article. En quoi est-ce pertinent pour Gemini ? Cette étude est sortie avant le nouveau Gemini 2.5, mais on aurait pensé que Google aurait maîtrisé la recherche. Honnêtement, leurs aperçus IA sont vraiment douteux, ne leur faites pas confiance. J’ai déjà été échaudé, comme je l’ai mentionné sur la chaîne. Pour cette étude, qui concernait probablement Gemini 2, on pouvait voir qu’il donnait souvent des réponses incorrectes, des citations hallucinées ou incorrectes, par rapport à des outils comme la recherche ChatGPT ou Plexity. Venant de Google, ce ne devrait pas être le cas.

Conclusion

Une dernière mise en garde avant de terminer : oui, Gemini 2.5 Pro est un chatbot intelligent, probablement le meilleur du moment selon votre cas d’utilisation. Même en écriture créative, je l’ai trouvé incroyable, meilleur même que le GPT-4o fraîchement mis à jour d’OpenAI.

Mais de nouveaux modèles apparaissent constamment. DeepSeek R2 devrait arriver dans quelques semaines, nous ne savons toujours rien de Llama 4, GPT-4o n’a jamais été publié par OpenAI et pourrait être intégré à GPT-5, et je pourrais continuer. Le PDG d’Anthropic a déclaré qu’ils allaient dépenser des centaines de millions en apprentissage par renforcement pour Claude 4.

La couronne pourrait donc ne pas rester longtemps chez Google, mais on peut dire qu’ils la détiennent aujourd’hui.

Ai-je sous-estimé Gemini 2.5 dans ma vidéo précédente ? On pourrait le dire, mais je dirais que le point que j’essayais de faire valoir (et consultez cette vidéo si vous ne l’avez pas vue) est que l’IA est en train d’être banalisée. Créer un bon chatbot n’est pas une question de source secrète au siège d’Anthropic, d’OpenAI ou de Google DeepMind.

Cette idée est soutenue par la convergence observée sur certains benchmarks entre les différentes familles de modèles. Mais comme je l’ai mentionné dans cette vidéo, la convergence n’exclut certainement pas le progrès, et le progrès est précisément ce que Gemini 2.5 Pro nous a apporté.