Y a-t-il un Nouveau Roi de la Programmation IA ? Google Gemini 2.5 Pro IO Edition Bouleverse le Classement
Y a-t-il un nouveau roi de la programmation IA ? Découvrons-le ensemble. Bienvenue dans cette édition spéciale d’AI Daily Brief où nous vous présentons toutes les actualités quotidiennes sur l’IA en environ 5 minutes.
La Nouvelle Édition IO de Google Gemini 2.5 Pro
Google vient d’annoncer une nouvelle version de son modèle Gemini 2.5 Pro. Baptisée « édition IO », elle est spécifiquement conçue pour la programmation et semble exceller dans ce domaine. Alors, cette mise à jour de Gemini 2.5 Pro est-elle véritablement le modèle de référence pour l’assistance au codage ? Analysons la situation.
Depuis que Cursor a gagné en popularité à la fin de l’année dernière, un consensus assez fort s’est formé autour des modèles Cloud d’Anthropic comme étant les plus performants pour le codage assisté par IA. Il y a eu une brève confrontation fin 2023 avec la sortie de 01, mais Anthropic a rapidement répliqué avec Claude 3.7 Sonnet, qui reste pour beaucoup la référence du secteur.
La nouvelle édition IO de Google Gemini 2.5 Pro semble bouleverser le classement, du moins selon les benchmarks, suggérant qu’elle surpasse largement la concurrence. Le PDG de Google DeepMind, Demis Hassabis, a annoncé le lancement en écrivant : « Très heureux de partager le meilleur modèle de codage que nous ayons jamais construit. Aujourd’hui, nous lançons Gemini 2.5 Pro Preview IO Edition avec des capacités de codage considérablement améliorées. » Il poursuit en précisant : « Il est particulièrement performant pour créer des applications web interactives » et partage une démonstration d’une application prototypée à partir d’un simple croquis.
Des Performances Exceptionnelles dans les Benchmarks
Le modèle est désormais classé numéro un sur LM Arena dans la catégorie codage ainsi que numéro un sur WebDev Arena. Ces deux benchmarks sont subjectifs, les utilisateurs sélectionnant leur favori entre deux résultats concurrents de modèles rivaux. Il y a eu récemment beaucoup de critiques sur la validité de cette méthode pour évaluer les chatbots, les humains étant facilement influencés par des éléments comme l’utilisation d’émojis ou la verbosité. Cependant, cette approche semble plus pertinente pour évaluer les résultats des assistants de codage, ces déclencheurs simples ayant moins d’influence sur les préférences des utilisateurs.
Plus impressionnant encore, les écarts ne sont pas minces. Si l’on se réfère aux scores ELO sur WebDev Arena, l’écart entre ces deux modèles est aussi important que celui qui existait entre 3.7 Sonnet et la version initiale de Gemini 2.5 Pro. Sur LM Arena, le modèle a atteint la première place dans toutes les catégories, ce qui est extrêmement inhabituel.
Accessibilité et Coûts
Le modèle étant propriétaire, les utilisateurs ne peuvent y accéder que via les services web de Google. Le coût reste identique à celui de l’ancienne version, soit environ deux tiers du prix de Claude 3.7 Sonnet. Les utilisateurs peuvent obtenir un accès gratuit via l’application Gemini s’ils activent Canvas 2, mais il faudra payer pour intégrer l’API à un environnement de développement.
Premières Impressions et Réactions
Les premiers retours sont très positifs. Logan Kilpatrick de Google a partagé une citation de Silas Alberti, membre fondateur de Cognition, qui a déclaré : « La version mise à jour de Gemini 2.5 Pro atteint des performances de pointe sur nos évaluations de développeur junior. C’était le premier modèle à résoudre l’une de nos évaluations impliquant une refactorisation majeure d’un backend de routage de requêtes. Il donnait l’impression d’être un développeur senior car il était capable de prendre des décisions correctes et de choisir de bonnes abstractions. »
Romesh R a codé un clone de Candy Crush, écrivant : « Codage en une seule fois avec effets sonores. L’industrie du jeu casual est morte. Cela a pris moins d’une minute. » Pietro Schirano, PDG d’Everart, a programmé une simulation 3D d’un gorille combattant 100 hommes, s’inspirant d’un mème actuel. Et Euchen Jinn, CTO de Hyperbolic Labs, a écrit : « Ce modèle est désormais mon modèle de codage préféré. Il surpasse 03 et Claude 3.7 Sonnet sur plusieurs de mes prompts difficiles. Google, appelez-le Gemini 3. »
Ethan Mollick a effectué un test pratique de la fenêtre de contexte ultra-longue du modèle, commentant : « Résultats impressionnants avec la nouvelle version de Gemini 2.5. J’ai changé une ligne de ‘Guerre et Paix’, insérant une phrase dans le livre 14, chapitre 10, à mi-chemin, où la princesse Marie parlait à Crabman, le super-héros. » Gemini 2.5 a systématiquement trouvé cette référence parmi 860 000 tokens. Il a toutefois noté quelques bizarreries dans les prompts, ajoutant : « Si vous ne lui dites pas de tout lire, parfois il est paresseux et ne parcourt pas le texte. L’IA est étrange. »
Quelques Critiques
Tout le monde n’est pas unanimement conquis par l’édition IO. L’ingénieur logiciel Dylan Normandon écrit : « Je suis déçu par la dernière mise à jour de Gemini 2.5 Pro. Elle semble nettement moins performante en tant que partenaire de programmation que la version précédente. » Le même phénomène s’est produit lors du passage de Sonnet 3.5 à Sonnet 3.7. Les capacités techniques de l’IA se sont peut-être améliorées, mais l’expérience utilisateur en a souffert.
Plus critique encore, ce tweet de Signal : « Gemini est techniquement excellent, mais donne l’impression de parler à un service d’assistance d’entreprise qui a lu trop de manuels RH. Pas de mordant, pas de chaleur, pas de subtilité. L’absence d’instructions personnalisées n’aide pas non plus. Pour le codage via des applications tierces, c’est correct. Mais pour tout ce qui nécessite de l’ambiance, de l’intuition ou du goût, je préfère Claude ou GPT. »
Malgré ces réserves, il semble que cette mise à jour soit globalement excellente. Cette version arrive juste avant la conférence Google I/O, qui débutera dans deux semaines. Je suis toujours impatient de découvrir ce que Google partage lors de cet événement, et cette annonce ne fait qu’accroître cette excitation.
HuggingFace Lance Open Computer Agent
La plateforme open source HuggingFace a lancé un agent d’utilisation d’ordinateur gratuit appelé Open Computer Agent. Cet outil gratuit est similaire à l’opérateur d’OpenAI dans ses fonctionnalités. Il peut accéder au web et effectuer des tâches agentiques de base. Cependant, actuellement, ses performances laissent beaucoup à désirer.
TechCrunch rapporte qu’il a rencontré des difficultés pour réserver des vols et qu’il est généralement assez lent. De son côté, HuggingFace a précisé que l’objectif n’était pas de construire l’agent d’utilisation d’ordinateur le plus performant, mais plutôt de démontrer que les modèles open source deviennent plus capables et sont peu coûteux à utiliser sur une infrastructure cloud.
L’un des principaux obstacles durant cette phase initiale de déploiement d’agents a été que le coût peut être prohibitif pour des tâches complexes. Eric Risser de HuggingFace a écrit : « À mesure que les modèles de vision deviennent plus performants, ils peuvent alimenter des flux de travail agentiques complexes. » Finalement, cela ressemble davantage à une preuve de concept et à une démonstration des avancées des agents open source qu’à autre chose.
Lightricks Révolutionne la Génération Vidéo IA
Enfin, abordons un domaine de l’IA que nous n’avions pas exploré depuis un moment. La startup d’IA Lightricks a lancé un puissant nouveau modèle vidéo capable de fonctionner sur du matériel grand public.
Le nouveau modèle, appelé LTX Video, est un modèle vidéo de 13 milliards de paramètres qui, théoriquement, fonctionne 30 fois plus rapidement que les modèles comparables sur des GPU grand public. C’est un bond suffisamment important pour faire passer la génération vidéo d’impossible à fonctionnelle pour une utilisation sur station de travail. Cela signifie également que les coûts se sont effondrés, Lightricks revendiquant une réduction d’environ 10 fois par rapport aux principaux concurrents.
Le PDG Zeev Farbman écrit : « L’introduction de notre modèle LTX Video de 13 milliards de paramètres marque un moment décisif dans la génération vidéo par IA, avec la capacité de générer rapidement des vidéos de haute qualité sur des GPU grand public. Nos utilisateurs peuvent désormais créer du contenu avec plus de cohérence, une meilleure qualité et un contrôle plus précis. »
L’astuce semble résider dans une fonctionnalité appelée « rendu multi-échelle ». Le modèle génère la vidéo en couches progressives de détails, augmentant considérablement l’efficacité. Farbman a expliqué : « Cela permet au modèle de générer des détails progressivement. On commence sur une grille grossière, obtenant une approximation brute de la scène, du mouvement, des objets en mouvement, etc., puis la scène est divisée en tuiles, et chaque tuile est remplie de détails de plus en plus précis. »
Cette méthode permet au modèle de s’adapter aux limites de mémoire des GPU grand public, alors que les modèles concurrents de Luma et Runway nécessitent généralement du matériel professionnel plus puissant. Farbman précise que la limite de mémoire restreint la taille des tuiles, et non la résolution globale comme ce serait le cas avec d’autres modèles.
La qualité semble à la hauteur d’après les échantillons disponibles. À ce stade, nous avons pratiquement dépassé le point où il existe un grand écart de qualité entre les modèles vidéo, et de nombreux arguments de vente se sont déplacés vers le coût et la disponibilité. Le modèle est maintenant entièrement disponible en open source, vous pouvez donc l’essayer sur HuggingFace ou le tester chez vous si vous disposez d’un GPU raisonnablement puissant.
Voilà qui conclut notre édition spéciale d’AI Daily Brief. Restez à l’écoute pour nos prochaines analyses sur les dernières avancées en intelligence artificielle.
Featured image by Ayrus Hill on Unsplash

