Gemini 2.5 Pro : La nouvelle mise à jour IO Edition de Google est révolutionnaire

Google vient de déployer une mise à jour pour son meilleur modèle jamais créé, Gemini 2.5 Pro IO Edition, disponible depuis le 6 mai. Après l’avoir testé de manière approfondie, je vais vous montrer ses performances incroyables. Ce modèle est capable de créer certains des projets de code les plus impressionnants que j’ai jamais vus sortir d’un modèle d’IA.

Des performances incroyables sur le Rubik’s Cube

Commençons par le Rubik’s Cube. La version précédente de Gemini 2.5 Pro pouvait déjà résoudre ce problème du premier coup, mais la nouvelle version dispose de fonctionnalités supplémentaires. Vous pouvez maintenant faire pivoter le cube, zoomer, dézoomer et le faire tourner grâce à différents boutons, ce qui est vraiment pratique. Et bien sûr, nous pouvons facilement le résoudre.

Il y a un bouton pour mélanger le cube, comme dans la version précédente. Le mélange est encore plus rapide, s’effectuant en 12 mouvements. Et quand on le résout, c’est absolument incroyable.

Nous avions testé un cube 10×10 la dernière fois. Essayons maintenant un 20×20. Je vais le mélanger… Et voilà, un cube 20×20 complètement mélangé. C’est incroyablement complexe. Lançons la résolution. Cela va prendre un certain temps, alors restez avec moi. Je vous montrerai le résultat final.

Les améliorations majeures de cette mise à jour

Laissez-moi vous parler des mises à jour qui ont été effectuées, car il s’agit d’une très grande amélioration par rapport à un modèle déjà incroyablement bon. La principale nouveauté est la possibilité de créer des applications web interactives riches avec Gemini 2.5 Pro mis à jour, et c’est ce sur quoi ils se sont vraiment concentrés. Je l’ai testé et je vais vous montrer ça dans un instant.

Cette version s’appelle Gemini 2.5 Pro Preview IO Edition car Google IO (leur conférence présentant toutes leurs nouvelles technologies) arrive bientôt. C’est une version mise à jour de 2.5 Pro qui possède des capacités considérablement améliorées pour le codage, en particulier pour créer des applications web interactives convaincantes. Google prévoyait de publier cette mise à jour lors de Google IO dans quelques semaines, mais en raison de l’enthousiasme écrasant pour ce modèle, ils ont voulu le mettre à disposition plus tôt.

Gemini 2.5 Pro était déjà le meilleur modèle de codage disponible, sans véritable concurrence, mais j’ai trouvé que Claude 3.7 était encore meilleur pour le codage agentique. En termes de création complète d’applications, de jeux et de simulations, Gemini était meilleur. Mais pour l’appel de fonctions et les utilisations agentiques, Claude était supérieur. Jusqu’à maintenant ! Ils ont investi dans l’amélioration des appels d’outils avec cette nouvelle version de 2.5 Pro.

Ces améliorations s’étendent à d’autres tâches de codage comme la transformation de code, l’édition de code et le développement de flux de travail agentiques complexes. Et comme les autres modèles Gemini, il dispose d’une fenêtre de contexte d’un million de tokens, ce qui est absolument fou. Il peut ingérer des vidéos, des images, de l’audio, pratiquement tout.

Des scores impressionnants sur les benchmarks

Sur LM Arena, il prend la première place. Le score précédent était celui de la version antérieure de 2.5 Pro à 1437 sur le score Arena. Le nouveau score a bondi de 11 points à 1448, ce qui n’est pas un petit exploit. Et sur le classement Web Dev Arena, nous sommes passés de 1272 à 1419, soit une amélioration de 147 points.

Revenons rapidement au cube 20×20, il est toujours en train de se résoudre. Nous y reviendrons dans une minute.

Examinons maintenant les benchmarks. Gemini 2.5 Pro Preview du 6 mai présente des chiffres mis à jour :
– GPQA Diamond : 83%
– Amy 2024 : 83% (GPT-4o le bat)
– Ader Polyglot : 76% (GPT-4o le bat)
– Sweetbench vérifié : 63% contre 69% (GPT-4o le bat)
– Simple QA, MMLU : soit égalité, soit GPT-4o gagne

Voici ce qu’il faut savoir sur les benchmarks : ils n’ont qu’une importance relative. D’après mon expérience, le seul modèle capable de produire un code incroyablement long pour construire des applications et des jeux sophistiqués est Gemini 2.5 Pro.

Et le prix, c’est vraiment le point fort. Non seulement Google dispose d’un modèle frontier de premier ordre, mais c’est aussi de loin le moins cher pour ce niveau d’intelligence : 2,50 $ par million de tokens en entrée, 15 $ pour un million de tokens en sortie. C’est à comparer à GPT-4o qui coûte quatre fois plus cher en entrée et environ trois fois plus cher en sortie. En fait, le seul modèle moins cher que Gemini 2.5 Pro est Deepseek R1, qui est open source, ce qui est logique.

Le cube 20×20 résolu

Revenons au cube. Oh, regardez, nous venons juste de vérifier et il a terminé juste devant nous. Incroyable. Je viens de cliquer sur cet onglet et il a terminé juste devant nous. Le voilà. Un cube 20×20 entièrement résolu. Je suis vraiment impressionné.

Box AI : Une solution pour exploiter Gemini 2.5 Pro

Si vous souhaitez essayer ce nouveau modèle et créer des choses vraiment cool sur vos documents, vous devez essayer Box AI. Box sponsorise cette vidéo et ils auront bientôt Gemini 2.5 Pro IO Edition. Box vous permet de stocker tous les documents de votre entreprise, de tout type, et d’utiliser l’intelligence artificielle pour extraire des informations, répondre à des questions, créer des automatisations et des flux de travail intelligents avec leurs agents.

Ils disposent d’une API très facile à utiliser, vous pouvez donc créer des choses vraiment cool avec Box AI, et ils gèrent l’ensemble du pipeline RAG pour vous, vous n’avez donc pas à vous soucier de toutes ces complexités. Box est utilisé par 115 000 organisations d’entreprise, y compris la mienne, et ils offrent une sécurité, une conformité et une gouvernance de niveau entreprise.

Test de création d’une île flottante en 3D

Ensuite, j’ai voulu créer une simulation d’île flottante en 3D. Dans notre test de GPT-4o d’OpenAI, le résultat était correct mais loin d’être parfait.

Laissez-moi vous montrer le prompt, puis la simulation réelle : « Créez une scène d’île flottante onirique en low poly avec un éclairage dynamique et des animations douces dans un seul fichier HTML. » Il n’a eu besoin que de 25 secondes de réflexion.

Et voici le résultat. Regardez comme c’est bon. Nous avons ces nuages qui flottent. Nous avons les nuages plus grands en arrière-plan. Vous pouvez zoomer, dézoomer. L’éclairage est bon. Les ombres sont vraiment bonnes.

Nous avons également une série de curseurs. Nous pouvons modifier l’intensité du soleil, l’éclairage ambiant, la lueur du cristal central (ce cristal au milieu), le brouillard proche et lointain, la vitesse de balancement de l’île, l’amplitude du balancement, et la vitesse des nuages.

Le premier résultat était déjà excellent, mais j’ai simplement itéré en demandant : « Maintenant, ajoutez une série de curseurs pour contrôler les différents aspects. » Et ce sont tous les curseurs que je viens de vous montrer.

Simulation d’un tableau de Galton

Ensuite, une simulation de tableau de Galton. J’ai demandé : « Créez un fichier HTML autonome pour une simulation de tableau de Galton utilisant JavaScript côté client et un moteur physique 2D comme Matter.js. La simulation doit être rendue sur un canvas HTML5. »

Le code généré avait un problème : il n’y avait pas de trou dans l’entonnoir supérieur, donc aucune balle ne passait. Il a fallu une autre itération pour corriger cela. J’ai simplement dit : « Il n’y a pas de trou dans l’entonnoir supérieur, donc les balles restent coincées. De plus, il n’y a pas de curseurs. »

Voici le résultat. Nous pouvons voir la simulation du tableau de Galton. Ce que nous devrions voir, c’est une belle courbe en cloche représentant la probabilité que les balles tombent au milieu par rapport aux deux côtés.

Nous avons plusieurs curseurs : intervalle de chute, nombre maximum de balles, nombre de bacs, nombre de rangées de chevilles, rayon des chevilles, rayon des balles, rebond des balles et gravité. Un petit problème que je remarque est que les chevilles devraient être alternées, mais elles sont toutes les unes au-dessus des autres. Ce n’est donc pas une simulation aussi bonne qu’elle pourrait l’être, mais c’est suffisant.

Simulateur de vol

Ensuite, nous avons dû créer un simulateur de vol. J’ai demandé : « Écrivez un fichier HTML complet qui crée un simulateur de vol simple en utilisant Three.js. La scène doit comporter une caméra à la troisième personne qui suit derrière et légèrement au-dessus d’un modèle d’avion basique. »

Voici à quoi ça ressemble. Vraiment sympa. Je pense que ce serait cool d’ajouter de la gravité. Appuyons sur la barre d’espace pour accélérer, et Shift pour ralentir. Ça fonctionne. On peut voir l’ombre qui semble miroiter sur le sol. Très basique, mais vraiment cool.

Jeu Snake amélioré

Ensuite, nous avons voulu ramener le jeu Snake, mais pas seulement le créer, nous voulions une version complexe. J’ai demandé : « Écrivez une version Python du jeu classique Snake en utilisant Pygame, mais avec des améliorations uniques, visuellement impressionnantes et complexes qui le rendent incroyable à regarder. »

Laissez-moi vous montrer ce que la version précédente de Gemini 2.5 Pro a pu créer, car c’était vraiment bon. Puis je vous montrerai ce que cette nouvelle version a pu créer.

Le voici. Nous avons de petits murs essayant d’obtenir la nourriture. Nous avons une version IA du serpent qui joue contre nous. Il ne s’arrête évidemment pas s’il me rentre dedans. Vous voyez, il peut me traverser. Je pense que globalement, l’autre version était en fait meilleure.

Simulation de particules

Ensuite, j’ai utilisé la simulation de particules de Punit. J’ai simplement téléchargé la vidéo, l’ai téléchargée sur Gemini 2.5 Pro, la nouvelle version, et j’ai dit « Recréez ceci ».

La première chose qu’il a faite est de me donner un tas de fichiers individuels. J’ai corrigé cela en demandant : « Non, donnez-moi tout dans un seul gros fichier ». Ce n’était pas une erreur de sa part, je n’avais simplement pas précisé. Puis j’ai dit : « OK, maintenant permettez-moi de faire pivoter les formes avec ma souris ». Il a ajouté cela sans problème. Enfin, j’ai demandé d’ajouter des curseurs pour contrôler différents paramètres de la simulation.

Voici le résultat final. Je peux faire pivoter la forme. Si je clique dessus, elle se transforme en une forme différente. Les couleurs sont vraiment belles.

Nous avons des curseurs en bas. Nous pouvons contrôler le nombre de particules, la taille des particules, la vitesse de transformation et la vitesse de rotation automatique. Très impressionnant.

Simulateur Lego

Ensuite, construisons un simulateur Lego. J’ai demandé : « Créez une simulation de construction Lego interactive en utilisant Three.js contenue dans un seul fichier HTML. La simulation devrait permettre aux utilisateurs de placer, déplacer et connecter des briques Lego dans un environnement 3D. »

Voici le plan 3D où je sélectionne une brique et la place. Il y a un petit bruit de « bloop » agréable. La touche R pour pivoter ne semble pas fonctionner, c’est un élément manquant. Je peux la faire dépasser. Si j’appuie sur Échap, je peux la faire pivoter.

Ce n’est certainement pas parfait, mais toujours très bon. Et oui, vous pouvez retirer une pièce. Sélectionnons une autre couleur, une autre taille. Le placement est loin d’être parfait, mais je dirais que c’est quand même très bien. Vous pouvez également sauvegarder, charger des constructions précédentes et tout effacer.

Tamagotchi

Je suis un enfant des années 90, donc j’ai bien sûr grandi avec Tamagotchi. Si vous ne connaissez pas, c’était un petit jeu porte-clés. Vous aviez un petit personnage et vous deviez en prendre soin. Vous pouviez le nourrir, nettoyer après lui, etc.

J’ai utilisé l’IA pour m’aider à créer les spécifications. Voici à quoi ça ressemble : « Construisez un jeu Tamagotchi en Python. Utilisez ces spécifications comme guide. Boucle principale : progression basée sur le temps, interaction utilisateur, mises à jour de statut. Le Tamagotchi a faim, bonheur, discipline, santé, âge et poids. »

Nom de l’animal : je vais l’appeler B, c’est le nom de mon chien. Et nous y voilà. Vous pouvez voir que l’âge avance. Pour l’instant, il est en incubation, c’est encore un œuf. Je pense qu’après 5 tics, il éclot. Voilà le Tamagotchi.

Nous avons faim, bonheur, santé, discipline et poids. Nous pouvons voir que la discipline est faible. Disciplinons-le. Quand vous le disciplinez, le bonheur diminue. Alors jouons avec lui. Le bonheur augmente. Maintenant la faim, nourrissons-le. Maintenant il est nourri à 100%. La discipline est encore un peu faible, disciplinons-le encore une fois. Et puis le bonheur a diminué, jouons quelques fois.

Il a évolué. Maintenant c’est un enfant. Et si j’éteins les lumières, B s’est endormi. On peut voir que pendant qu’il dort, il gagne sur ces différents statuts.

J’ai redémarré et maintenant vous voyez les excréments. Il est indiqué que l’espace de B a besoin d’être nettoyé. Nous allons le nettoyer. Et voilà. Et bien sûr, oui, c’est un excrément vibrant et tremblant bizarre. C’est ce à quoi ça ressemble. Version très simple, je pourrais facilement itérer là-dessus et m’amuser davantage. Très nostalgique.

Recréation de Doom

Nous avons un nouveau test, et merci au producteur Alex d’avoir eu cette idée. Nous voulions créer le jeu Doom, la version old school. J’ai demandé : « Créez un jeu de tir à la première personne de style rétro dans un seul fichier HTML en utilisant Three.js, inspiré du Doom original de 1993. »

Voici le résultat. Commencer le jeu. Et le voilà. Vous pouvez voir qu’il y a un ennemi et si je lui tire dessus, très bien. Il disparaît et vous pouvez voir qu’à mesure que je tire, les munitions sont réduites, puis il doit recharger automatiquement. Je peux me déplacer.

Regardez la mini-carte en haut à droite. C’est quelque chose qui m’impressionne beaucoup. Ce gars me court après. Je passe au fusil à pompe et un seul tir l’élimine. Je suis habitué à la souris inversée et ce jeu ne l’a pas, pardonnez-moi pour ça. Ces ennemis nécessitent deux tirs. Assurons-nous d’éliminer tous les ennemis dans le labyrinthe.

Ils se déplacent un peu lentement, mais je pense que c’est incroyable. Dernier ennemi. Nous devons recharger. Fuyons. Voilà. Et nous avons gagné. Nous avons éliminé tous les ennemis. Une version très basique, on peut facilement itérer là-dessus aussi.

Tower Defense

Ensuite, un jeu de tower defense. J’ai demandé : « Construisez un tower defense basé sur le canvas HTML5 où des vagues d’ennemis ballons (santé 1 à 10, codés par couleur du vert au violet) suivent un chemin sinueux. En mode planification, les joueurs placent cinq types de tours : fléchette, canon, glace, sniper, laser, chacun représenté par un point de couleur unique et un aperçu de portée au survol. »

Voici le jeu. Des graphismes très simples, mais ça devrait être bon. Nous avons le numéro de vague, combien d’argent nous avons et combien de vies nous avons. Commençons par une tour de fléchettes, placée ici. Et je vais placer une deuxième tour de fléchettes là. Commençons la vague.

Première vague assez facile. Et chaque fois que nous tuons un ennemi, nous obtenons plus d’argent, ce qui est bien. Et nous avons des ennemis plus gros et plus puissants qui arrivent. Vague 1 terminée. Maintenant nous avons 210 $. Ajoutons une tour de glace ici, juste à la sortie de ce coin. Et je vais ajouter une tour de sniper là. Commençons la vague suivante.

Nous pouvons voir que la tour de glace ralentit les ennemis et tout le reste les tue. Nous avons des ennemis plus puissants ici. On dirait que nous nous en sortons plutôt bien. Ajoutons une tour laser, ce qui devrait être vraiment cool. Ajoutons-en une là. Et ajoutons-en une seconde là. Cliquons sur démarrer. Voilà le laser. C’est génial, non ? Ça fonctionne vraiment bien.

Ce n’était pas du premier coup. Il y avait quelques problèmes que nous avons dû résoudre. Initialement, nous avons fourni une capture d’écran indiquant qu’il ne créait pas de chemin ou ne démarrait pas la vague. Puis nous avons demandé de pouvoir désélectionner avec un clic droit car actuellement, lorsque je place une tour, je ne peux rien cliquer d’autre à moins de changer de tour. Petites corrections aller-retour. Je pense que nous avons fait des allers-retours deux ou trois fois. Et puis, oui, nous avons finalement obtenu ce jeu.

Application de dessin

Ensuite, nous avons créé cette esquisse rudimentaire pour cette application de dessin. Nous avons des couleurs en haut. Nous avons la zone de dessin ici. Nous avons différents outils et différentes tailles. C’était vraiment une esquisse très basique. Tout ce que nous avons dit, c’est « Pouvez-vous coder cette application ? » Et voilà. Exactement ce que nous avons demandé.

Voici le bleu. Voici le jaune. Orange. Rouge. Super. Maintenant, utilisons un crayon. C’est juste un peu plus épais. Nous avons un pinceau. Et nous avons le seau. Nous pouvons changer la taille comme ça. Et oui, il a suffi d’une seule image pour créer cette application web interactive complète.

Recréation du front-end d’AI Studio

Ensuite, j’ai voulu recréer le front-end d’AI Studio car cette version du modèle est apparemment bien meilleure pour les front-ends. J’ai simplement écrit « Reconstruisez le front-end de Google AI Studio » et j’ai pris une capture d’écran. Très méta.

Après quelques échanges pour clarifier ma demande, voilà le résultat. C’est très précis. Je ne dirais pas parfait, mais c’est très précis. Il y a le bouton pour obtenir la clé API. Nous pouvons ajuster ces différents paramètres. Bascules pour la sortie structurée, l’exécution de code, l’appel de fonctions. Nous pouvons ajouter des séquences d’arrêt, modifier le top P, modifier la longueur de sortie.

Donc, en termes de zéro-shot, du premier coup, obtenir AI Studio juste à partir d’une capture d’écran, je vais donner 8 sur 10. C’est assez bon.

Un test qu’aucun modèle ne réussit

Mais je pense avoir trouvé un test qu’aucun modèle ne réussit car j’ai essayé ceci. Je l’ai vu en ligne et même cette version de Gemini n’a pas pu le faire. Le voici : « Combien de cubes manquent pour faire un cube complet ? »

Si vous les comptez, c’est 4x5x3. Il y a donc 60 cubes au total. Vous êtes censé compter combien il en manque. J’ai dit : « Dites-moi la réponse à la question dans l’image en vous basant sur l’image. » Je n’ai même pas donné la question. Et la réponse est 14. Il suffit de les compter.

Laissez-moi décomposer. Déterminer la taille. 64 petits cubes. Il s’est déjà trompé sur la taille. Ce n’est pas 4x4x4. C’est 4x5x3 et donc bien sûr 20 cubes manquants n’est pas correct.

Je pense que ce sera le nouveau benchmark. Quel que soit le modèle capable de résoudre ce problème, ce sera probablement le meilleur modèle.

Conclusion

C’est tout pour aujourd’hui. Le meilleur modèle vient de s’améliorer. Faites-moi savoir ce que vous en pensez dans les commentaires ci-dessous. Si vous avez apprécié cette vidéo, n’hésitez pas à laisser un like et à vous abonner.