Google Cloud Next : Gemini 2.5 Pro partout et les incroyables avancées en IA de Google

Regardez ce Rubik’s cube codé par le développeur Matt Berman. Ce qui pourrait sembler être un simple jouet est en réalité un défi de raisonnement extrêmement complexe. Des dimensions ajustables, le mélange des carrés, les contrôles clavier… et Gemini 2.5 Pro peut simuler tout cela. C’est un bond significatif qui démontre la capacité du modèle à produire du code interactif robuste.

Le PDG de Google vient de mentionner notre simulation de Rubik’s Cube réalisée avec Gemini 2.5 Pro lors de la keynote Google Cloud Next. C’est vraiment impressionnant ! Cet événement, qui vient de se terminer, était entièrement consacré à l’intelligence artificielle. Des annonces incroyables ont été faites, notamment concernant de nouveaux agents, des fonctionnalités de conversion texte-vidéo et texte-image, des modèles vocaux, et même l’interopérabilité entre agents, pour laquelle Google s’est associé à Box, partenaire de cette vidéo. Nous allons tout passer en revue maintenant. Et si vous vous posez la question : non, ce n’est pas un arrière-plan généré par IA. Je suis en vacances, mais l’IA ne prend pas de vacances, alors je suppose que moi non plus !

Le nouveau TPU Ironwood : une puissance de calcul inégalée

La première annonce concerne un nouveau processeur de traitement tensoriel (TPU), une puce spécifiquement conçue pour exécuter leur infrastructure d’IA. Voici ce qu’ils en disent :

« Je suis fier d’annoncer aujourd’hui notre TPU de septième génération. Ironwood sera disponible plus tard cette année. Par rapport à notre premier TPU publiquement disponible, Ironwood atteint des performances 3600 fois supérieures, une augmentation incroyable. C’est la puce la plus puissante que nous ayons jamais construite et elle permettra d’atteindre la prochaine frontière des modèles d’IA. »

C’est une puce incroyablement rapide, évidemment par rapport aux générations précédentes. Comme on peut le voir sur l’axe Y, les performances sont mesurées en flops, montrant une amélioration massive. « Au cours de la même période, nous sommes également devenus 29 fois plus économes en énergie, et nous partagerons plus d’informations à ce sujet plus tard dans la journée. »

L’efficacité énergétique est tout aussi importante que la performance, car l’un des facteurs limitants, en particulier aux États-Unis, pour l’IA est l’énergie. Nous n’avons tout simplement pas assez d’énergie pour alimenter la prochaine génération d’applications d’IA. Plus nous pourrons être efficaces, tant au niveau du matériel que des logiciels, mieux ce sera.

Gemini 2.5 Pro : des capacités de raisonnement exceptionnelles

Ensuite, Google a présenté les qualifications de Gemini 2.5 Pro, un modèle absolument incroyable pour le codage et le raisonnement. Il a mentionné des tests comme Ella Marina et, comme je l’ai mentionné au début de cette vidéo, un test que nous lui avons fait passer, ce qui donne une légitimité à notre petite communauté, comme l’a dit Eric Hartford :

« Il y a quelques semaines, nous avons lancé un nouveau modèle, Gemini 2.5, un modèle pensant qui peut raisonner avant de répondre. C’est notre modèle d’IA le plus intelligent jamais créé et c’est le meilleur modèle au monde selon le classement Chatbot Arena. Il est à la pointe de la technologie dans une gamme de benchmarks nécessitant un raisonnement avancé, notamment avec le score le plus élevé jamais obtenu sur ‘Humanity’s Last Exam’, l’un des benchmarks industriels les plus difficiles, conçu pour capturer la frontière humaine de la connaissance et du raisonnement. »

Beaucoup de mots impressionnants, mais voici ce qu’il peut faire concrètement : « Regardez ce Rubik’s cube codé par le développeur Matt Berman. Vous pourriez penser que c’est un jouet, mais c’est en réalité un défi de raisonnement très complexe. Des dimensions ajustables, le mélange des carrés, les contrôles clavier… et Gemini 2.5 Pro peut simuler tout cela. C’est un bond significatif qui démontre la capacité à produire du code interactif robuste. »

Ce qu’il n’a pas mentionné, et qui me surprend vraiment, c’est que Gemini 2.5 Pro a réalisé cela du premier coup ! Il n’y a eu aucune itération, c’était un « zéro-shot ». Je n’avais aucun exemple, j’ai simplement fait une demande et il me l’a donné. Je l’ai chargé dans mon éditeur de code et c’était là. Et oui, il a un peu passé ce point sous silence, ce qui, à mon avis, est la partie la plus impressionnante de cette démonstration.

Gemini 2.5 Flash : plus rapide et plus économique

Ensuite, ils ont annoncé une version plus rapide : Gemini 2.5 Flash. Et d’ailleurs, si nous en sommes à 2.5, imaginez à quoi ressemblera la version 3 ! Mais revenons à 2.5 Flash :

« Gemini 2.5 Flash, notre modèle à faible latence et le plus rentable, avec la capacité de réflexion intégrée. Avec 2.5 Flash, vous pouvez contrôler la quantité de raisonnement du modèle et équilibrer les performances avec votre budget. 2.5 Flash sera bientôt disponible dans AI Studio, Vertex AI et dans l’application Gemini. Nous partagerons bientôt plus de détails sur le modèle et ses performances. Je suis très enthousiaste et j’ai hâte que vous puissiez le voir par vous-mêmes. »

L’avenir des agents IA : interopérabilité et développement

Ensuite, ils ont parlé de ce qui m’enthousiasme personnellement le plus. Vous savez que je suis optimiste concernant les agents. Ils disposent désormais d’une nouvelle plateforme de création d’agents ainsi que d’une interopérabilité entre agents. Cela signifie qu’à l’avenir, vous aurez votre agent et votre agent pourra communiquer avec d’autres agents provenant d’autres plateformes et d’autres logiciels. Ils pourront facilement communiquer et travailler ensemble. C’est vraiment l’architecture sous-jacente nécessaire pour avoir ce futur basé sur les agents que nous savons tous imminent.

« Nous annonçons aujourd’hui un nouveau kit de développement d’agents. C’est un nouveau framework open-source… » Et c’est le mot-clé que j’adore voir : open-source. C’est un framework open-source. Il parle d’utiliser les modèles Gemini, mais s’il est open-source, techniquement, vous devriez pouvoir utiliser n’importe quel modèle.

« …qui simplifie le processus de construction de systèmes multi-agents sophistiqués. Vous pouvez désormais construire des agents sophistiqués alimentés par Gemini, les aider à utiliser des outils, effectuer des tâches complexes en plusieurs étapes, y compris le raisonnement ou la réflexion. Vous pouvez également découvrir d’autres agents, apprendre leurs compétences et permettre aux agents de travailler ensemble tout en maintenant un contrôle précis. Le kit de développement d’agents prend en charge le protocole de contexte de modèle… »

C’est énorme ! Le protocole de contexte de modèle (MCP) est partout. Le PDG de Google a demandé il y a environ une semaine s’ils devaient le prendre en charge, et évidemment, je pense qu’il savait déjà qu’ils allaient le faire, et tout le monde a dit oui. Maintenant, Google, Microsoft, OpenAI, Anthropic, pratiquement tout le monde supporte le MCP, et j’adore ça. Les standards sont bons pour nous.

« …qui fournit un moyen unifié pour les modèles d’IA d’accéder et d’interagir avec diverses sources de données et outils, plutôt que de nécessiter des intégrations personnalisées pour chacun d’entre eux. »

Le protocole agent-à-agent : une révolution dans la communication

Ensuite, nous avons découvert le protocole agent-à-agent, qui semble incroyable :

« Nous introduisons également un nouveau protocole agent-à-agent qui permet aux agents de communiquer entre eux, indépendamment du modèle sous-jacent et du framework avec lequel ils ont été développés. Ce protocole est soutenu par de nombreux partenaires de premier plan qui partagent la vision de permettre aux agents de travailler dans l’écosystème multi-agent et avec des agents construits sur d’autres frameworks d’agents, y compris Langraph et Crew AI. »

Je suis ravi qu’ils aient mentionné Langraph et surtout Crew AI. Vous savez que je suis un grand fan de Crew AI et je suis vraiment content que ces produits fonctionnent si bien ensemble, car avoir des agents qui se parlent entre eux alors qu’ils ne sont pas construits sur le même système sera incroyablement important. Et l’un de leurs partenaires de lancement est Box, qui s’est associé à nous pour cette vidéo.

Google Agent Space : démonstration impressionnante

Voici une démonstration de Google Agent Space, qu’ils viennent également d’annoncer. C’est en quelque sorte l’interface utilisateur de cette plateforme d’interopérabilité agent-à-agent, et celle-ci met en avant Box. Voyez comme c’est cool :

« Laissez-moi vous montrer… ‘Pouvez-vous m’aider à créer un rapport de réclamation et un résumé des coûts avec mon contenu dans Box et ma base de données de prix dans Google Cloud ?’ »

Deux plateformes différentes, tout en un seul endroit. On peut voir que l’une des sources de données sur la droite est Box, l’autre est BigQuery, et avec Agent Space, les agents de ces deux plateformes différentes vont pouvoir se parler et résoudre ce problème ensemble.

On voit qu’il a interrogé Box, puis BigQuery, et qu’il les combine. « Veuillez fournir l’ID de réclamation. » L’ID de réclamation est fourni, il continue à réfléchir et utilise à nouveau des outils qui exploitent ces deux plateformes. Voilà tous les documents pertinents, certains de Box, d’autres de Google, et maintenant il rassemble tout. « L’agent IA de Box a généré le rapport. » Regardez ça, nous avons des photos, puis il génère un rapport d’incident. C’est terminé, vous pouvez l’envoyer à Box directement, et vous pouvez évidemment voir la chaîne de réflexion qui vient de se produire.

C’est super cool, je suis vraiment enthousiaste, j’ai hâte de tester ça moi-même. Je vous recommande également de découvrir Box AI, car Box vous permet d’utiliser l’IA pour extraire des informations utiles de tous les documents que vous stockez déjà sur Box. Ils sont compatibles avec les principaux modèles, y compris Gemini 2.5 Pro, et disposent d’une API très facile à utiliser sur laquelle vous pouvez construire dès maintenant. Ils gèrent pour vous l’ensemble du pipeline RAG, c’est d’une simplicité déconcertante. Ils sont approuvés par 115 000 organisations d’entreprise avec une sécurité, une conformité et une gouvernance de niveau entreprise. Alors découvrez Box, je laisserai un lien dans la description ci-dessous.

Les nouveaux modèles de génération multimédia

Ensuite, ils ont parlé d’Imagine 3, leur dernier modèle de texte en image, qui offre une qualité incroyable. Ils ont également présenté Chirp 3, leur modèle de génération vocale. Vous n’avez besoin que de 10 secondes d’audio d’exemple, puis vous pouvez le générer. C’est évidemment un concurrent de 11 Labs. Ils ont également parlé de LIIA, qui convertit du texte en musique. Google mise vraiment sur tous les types de médias différents :

« Au cours de la dernière année, nous avons apporté d’énormes améliorations à Imagine 3, notre modèle texte-image de la plus haute qualité, qui génère des images avec de meilleurs détails, un éclairage plus riche et moins d’artefacts distrayants que les modèles précédents. Imagine offre une adhérence précise aux prompts, donnant vie à votre vision créative avec une précision incroyable.

Nous avons également introduit Chirp 3 pour vous aider à créer des voix personnalisées avec seulement 10 secondes d’entrée et pour intégrer une narration alimentée par l’IA dans vos enregistrements existants.

Aujourd’hui, nous rendons LIA disponible sur Google Cloud pour transformer les prompts textuels en clips musicaux de 30 secondes, et nous sommes le premier hyperscaler à offrir cette capacité. »

V2 : une révolution dans la génération vidéo

Mais à mon avis, V2 est le plus impressionnant. Vous lui donnez une image et il générera une vidéo à partir de cette image. Mais ce n’est pas tout : vous pouvez lui donner des directions, comme « panoramique à travers l’écran » ou « zoom avant », et le résultat est incroyable. À partir d’une seule image, vous obtenez une vidéo 3D :

« V2 est notre modèle de génération vidéo leader de l’industrie. Il génère plusieurs minutes de vidéo 4K avec un filigrane SynthID pour garantir qu’elles peuvent être identifiées comme générées par l’IA. Il donne aux créateurs un contrôle créatif sans précédent avec de nouveaux outils d’édition, notamment des préréglages de caméra pour diriger la composition des plans et les angles de caméra sans prompting complexe, un contrôle du premier et du dernier plan pour définir le début et la fin d’une séquence vidéo avec VO comblant parfaitement l’écart, et un inpainting et outpainting dynamiques pour l’édition et la mise à l’échelle vidéo.

Avec Gemini, Imagine, Chirp, LIA et VO, Google est la seule entreprise qui propose des modèles de médias génératifs dans toutes les modalités, et tous sont disponibles pour vous dès aujourd’hui sur Vertex AI. »

Démonstration en direct de V2 : des capacités impressionnantes

Voici maintenant une démo en direct qu’ils vont faire en utilisant V2, c’est tellement cool :

« Nous allons générer une vidéo, mais voici la nouveauté : des préréglages de caméra intégrés directement dans VO. Panoramique gauche, panoramique droit, time-lapse, plans de suivi et même plans de drone. Alors allons-y et soumettons un plan de drone de la skyline de la ville.

Normalement, cela prendrait quelques secondes, j’ai exécuté ceci plus tôt aujourd’hui, donc c’est en cache, ce sera un peu plus rapide que la normale.

Regardons la vidéo numéro un, absolument spectaculaire. Nous avons la possibilité de voir les fontaines, la Tour Eiffel. Maintenant, jetons un coup d’œil à la vidéo numéro deux, un angle différent que VO crée pour nous. Des images encore une fois époustouflantes, vous pouvez voir les nuages en arrière-plan et regardez les voitures qui montent et descendent le Las Vegas Boulevard, absolument incroyable.

Une seule vidéo ne suffira pas pour la promo du concert que nous voulons faire, alors je veux vous montrer d’autres vidéos que j’ai créées. J’en ai une ici de la scène en cours d’installation, tout cela grâce à la puissance de VO. J’en ai même une du public qui applaudit ce qu’il est sur le point de voir, ce sera un bon rappel pour vous tous.

Quelque chose de très intéressant s’est produit. Il s’avère que VO peut faire quelque chose que mon enfant de 12 ans sait faire, c’est-à-dire être expert en photobombing. Il s’avère que cette superbe vidéo que nous venons de voir a un membre de l’équipe, et nous aimons nos membres de l’équipe, cependant, dans ce cas, j’aimerais mettre en avant la guitare car la guitare est la partie la plus importante du groupe.

Utilisons donc la nouvelle capacité d’inpainting de VO et je suis désolé monsieur, je m’excuse, je sais que vous êtes très bon dans votre travail, mais je vais devoir vous retirer de cette image. Nous enverrons des fleurs à vous et à votre famille. Utilisons la nouvelle capacité d’inpainting, attendons quelques secondes et voyons ce que nous voyons maintenant. Si cela fait ce que je pense, cela devrait préserver tous les aspects de ce que nous avons vu auparavant, juste sans notre technicien de scène. Regardez ça ! »

Conclusion : Google en tête de la course à l’IA

Beaucoup d’annonces majeures, Google est absolument en feu depuis le lancement de Gemini 2.5 Pro. Je pense qu’ils l’ont vu et se sont dit : « Oh mon Dieu, je pense que nous avons pris la tête. » Et maintenant, ils sont à plein régime. Si vous m’aviez demandé il y a même 6 mois si c’était le cas, j’aurais probablement dit non, mais nous y sommes, et Google a maintenant le meilleur modèle de la planète.

C’est tout pour aujourd’hui. Si vous avez apprécié cette vidéo, n’hésitez pas à laisser un like et à vous abonner.

Google Cloud Next : Gemini 2.5 Pro partout et les nouvelles avancées révolutionnaires en IA