Google I/O 2025 : Toutes les innovations révolutionnaires que vous avez manquées
Je reviens tout juste de la conférence Google I/O où l’entreprise a dévoilé une multitude de produits incroyables basés sur l’intelligence artificielle. Je vais vous détailler toutes ces annonces. Mais avant de commencer, sachez que j’ai eu l’opportunité d’interviewer Sundar Pichai, le PDG de Google, avec qui j’ai discuté des World Models, de l’explosion de l’intelligence artificielle, de l’avenir de la recherche, et bien plus encore. Si vous n’êtes pas encore abonné, assurez-vous de le faire pour être notifié lorsque cette vidéo sera publiée.
L’évolution fulgurante de la stratégie IA de Google
La première chose que je souhaite aborder est la rapidité avec laquelle la perception de la stratégie d’IA de Google a changé. N’oublions pas qu’il y a seulement un an, beaucoup doutaient de l’approche de Google en matière d’intelligence artificielle. La dernière conférence Google I/O avait été plutôt mal reçue. Et pourtant, un an plus tard, nous voici face à un déploiement impressionnant de technologies.
Regardez tout ce que Google a déjà lancé en 2024 :
– Alphafold 3
– Imagine 3
– Gemma 2
Et les annonces continuent de s’enchaîner :
– Project Mariner
– Gemini 2.0 Flash Thinking
– Gemini 2.5 et 2.5 Pro
– Gemma 3 Robotics
– Alpha Evolve
Le thème central de cet événement est la transformation de la recherche menée depuis plus d’une décennie en produits concrets. Google commercialise enfin tous ces travaux de recherche qu’ils développent depuis longtemps.
Nous avons pu observer l’amélioration du score ELO pour chacun de leurs principaux modèles, mais ce n’est pas le plus intéressant. Laissez-moi vous montrer ce qui est révélateur, non seulement pour Google, mais pour l’intelligence artificielle en général.
Une croissance exponentielle de l’utilisation de l’IA
En 2024, Google traitait 9,7 billions de tokens par mois. Cela semblait déjà énorme, mais regardez maintenant : ils traitent désormais 480 billions de tokens mensuels. C’est une augmentation d’environ 50 fois en seulement un an ! Il y a eu des exclamations audibles dans la salle lorsque cette métrique a été dévoilée.
Passer en un an de 10 billions à près de 500 billions de tokens traités est tout simplement ahurissant. Cela témoigne non seulement de l’adoption par utilisateur de l’intelligence artificielle, mais aussi de la profondeur d’utilisation. Sans oublier que nous avons maintenant des modèles de « thinking » qui utilisent beaucoup plus de tokens. Tous ces facteurs combinés rendent ce chiffre de multiplication par 50 en un an absolument stupéfiant.
Et n’oubliez pas, si vous regardez cette vidéo, nous sommes tous encore très tôt dans cette révolution. Nous sommes toujours au tout début de ce point d’inflexion. C’est donc une période passionnante pour être dans ce domaine.
Google Beam : l’évolution de Project Starline
Passons maintenant à Project Starline, qui a été rebaptisé Google Beam. Si vous ne vous en souvenez pas, voici un extrait de l’événement :
« Project Starline, notre technologie vidéo 3D révolutionnaire présentée à l’I/O il y a quelques années. L’objectif était de créer la sensation d’être dans la même pièce que quelqu’un, même si vous étiez loin. Nous avons continué à faire des avancées techniques et aujourd’hui, nous sommes prêts à annoncer notre prochain chapitre : Google Beam, une nouvelle plateforme de communication vidéo basée sur l’IA. »
J’ai eu l’occasion d’essayer cette technologie et c’était vraiment impressionnant. Si vous avez déjà utilisé la Nintendo 3DS, cela donne une sensation similaire à vos yeux, dans le sens où vous regardez un écran qui est complètement tridimensionnel. Google utilise plusieurs caméras pour vous filmer, puis recrée votre image en utilisant l’intelligence artificielle pour montrer à votre interlocuteur une représentation en 3D. C’est absolument incroyable à voir en personne.
Au début, mes yeux ont mis quelques secondes à s’adapter et j’ai cru que j’allais commencer à avoir mal à la tête, mais quand j’ai simplement laissé mes yeux se détendre et que j’ai commencé à converser avec la personne de l’autre côté, c’était génial. À un moment donné, mon interlocuteur a sorti une pomme et l’a tenue devant moi, et j’avais vraiment l’impression que je pouvais tendre la main et saisir cette pomme directement de l’écran. C’était vraiment impressionnant.
Cette technologie est principalement destinée aux entreprises, pour les réunions où l’on souhaite avoir l’impression d’être dans la même pièce que son interlocuteur. Nous ne verrons probablement pas cela sur des appareils grand public de sitôt.
Project Astra : l’IA qui comprend votre environnement
Ensuite, il y a Project Astra, dont certaines parties sont intégrées dans l’application Gemini sur votre téléphone. Cela vous permet essentiellement d’utiliser votre caméra et d’interagir avec le monde réel. Vous pouvez pointer votre caméra vers quelque chose, et l’IA s’en souviendra et vous dira ce que c’est. Vous pouvez lui demander quel type d’arbre c’est, quel type d’animal, où vous avez laissé vos lunettes, etc.
Il existe de nombreux cas d’utilisation intéressants que nous avons déjà vus, et je commence à utiliser l’intelligence artificielle visuelle de plus en plus au quotidien. Ils ont diffusé une vidéo très amusante d’Astra en action :
« C’est un joli cabriolet. »
« Je pense que vous avez confondu le camion poubelle avec un cabriolet. Puis-je vous aider pour autre chose ? »
« Que fait ce bâtiment mince dans mon quartier ? »
« C’est un lampadaire, pas un bâtiment. »
« Pourquoi ces palmiers sont-ils si courts ? Je m’inquiète pour eux. »
« Ils ne sont pas courts. Ils sont en fait assez grands. »
« Joli cabriolet. »
« C’est encore un camion poubelle. Autre chose ? »
« Pourquoi les gens continuent-ils à livrer des colis sur ma pelouse ? »
« Ce n’est pas un colis. C’est un boîtier utilitaire. »
« Pourquoi cette personne me suit-elle partout où je vais ? »
« Personne ne vous suit. C’est juste votre ombre. »
Gemini est assez doué pour vous dire quand vous avez tort. Tout cela s’appelle Gemini Live et commence à être déployé dès aujourd’hui.
Project Mariner : l’agent qui interagit avec le web
Ensuite, il y a Project Mariner, un agent capable d’interagir avec le web. Bien sûr, nous avons vu de nombreuses itérations de ce concept. Nous avons vu Operator d’OpenAI, BrowserBased, Runner HA, et plusieurs autres projets et entreprises qui font des choses similaires, mais c’est la version de Google.
L’une des nouveautés annoncées aujourd’hui est le multitâche. C’est vraiment la puissance de ces agents asynchrones : vous pouvez lancer un agent, le laisser accomplir des tâches à long terme, puis commencer à configurer et à lancer votre prochain agent. Vous pouvez potentiellement avoir des dizaines de ces agents opérant sur des tâches à très long terme, de quelques minutes à plusieurs heures.
Il s’agit d’agents d’utilisation d’ordinateur, d’outils, de mémoire. Ce sont tous les différents éléments qui se réunissent dans un projet. Nous sommes encore aux premiers jours, et je suis sûr que cela se casse encore assez souvent, mais ce n’est que le début.
Google a également annoncé que les capacités d’agent arrivent sur trois plateformes majeures : Chrome, la recherche et l’application Gemini. Ils appellent cela le « mode agent ». Voici la démonstration que Sundar a faite lors de l’événement :
« Disons que vous voulez trouver un appartement pour vous et deux colocataires à Austin. Vous avez chacun un budget de 1 200 $ par mois. Vous voulez une machine à laver et un sèche-linge, ou au moins une laverie à proximité. Normalement, vous devriez passer beaucoup de temps à faire défiler d’innombrables annonces. En utilisant le mode agent, l’application Gemini travaille en coulisses. Elle trouve des annonces sur des sites comme Zillow qui correspondent à vos critères et utilise Project Mariner si nécessaire pour ajuster des filtres très spécifiques. S’il y a un appartement que vous souhaitez visiter, Gemini utilise MCP pour accéder aux annonces et même planifier une visite en votre nom, et il continuera à rechercher de nouvelles annonces aussi longtemps que nécessaire. »
L’IA personnelle intégrée à l’écosystème Google
Voici ce qui m’enthousiasme le plus. J’utilise tellement de services Google différents : YouTube, Gmail, Calendar… Mon entreprise fonctionne sur Google Apps. Ce que Google va faire, c’est enfin permettre à cet assistant IA très personnel d’obtenir du contexte à partir de tous les différents services que vous utilisez au sein de l’écosystème Google.
C’est vraiment, à mon avis, le Saint Graal de la personnalisation de l’IA. Ce n’est pas seulement avoir tout ce contexte, mais quand vous ajoutez à cela une mémoire à long terme de vos interactions avec l’IA, c’est là que vous avez vraiment un assistant personnel formidable et hautement fonctionnel.
L’une des démonstrations qu’ils ont faites concerne les réponses intelligentes personnalisées dans Gmail. Le projet ultime d’IA pour les emails serait pour moi de pouvoir simplement ouvrir mes emails et de trouver des brouillons de réponses prêts à être envoyés. Ces brouillons seraient basés sur l’historique de mes interactions avec ce contact, l’historique de mes interactions avec tous mes contacts, et tout autre contexte qu’il peut obtenir à partir des autres informations que je fournis. Cela me ferait gagner tellement de temps.
Nous allons maintenant un peu plus dans cette direction avec les réponses intelligentes personnalisées. Ce n’est pas encore tout à fait au point où je charge simplement Gmail et chacun de mes emails a un brouillon prêt à être examiné et envoyé. Mais c’est un bon pas dans cette direction.
J’ai été extrêmement flatté de recevoir une autre mention lors de cet événement Google. Voici ce qu’ils ont dit :
« Vous avez utilisé ces vastes pouvoirs de raisonnement pour tout, de l’analyse d’articles scientifiques à la compréhension de vidéos YouTube. Et vous nous avez dit à quel point vous avez trouvé l’utilisation de Gemini collaborative, perspicace et véritablement utile. »
Ils ont également fait référence à la démonstration du Rubik’s Cube à nouveau. C’était vraiment génial de voir certaines de nos créations présentées lors de l’événement Google.
Gemini : mises à jour majeures et nouvelles capacités
Google a également annoncé une série de mises à jour pour la série de modèles Gemini, notamment des budgets ajustables pour la réflexion, des performances plus rapides, des résumés de réflexion, et plus encore.
Ensuite, Google a lancé un modèle de génération de texte basé sur la diffusion. Si vous n’êtes pas familier avec un modèle de diffusion, ils sont généralement utilisés pour la génération d’images, mais nous avons vu quelques modèles utiliser la diffusion comme architecture pour la génération de texte, et ils ont tendance à être beaucoup plus rapides que l’architecture basée sur les transformers.
C’était littéralement plus rapide que ce que vous pouviez voir, mais ils vont le ralentir ici pour que vous puissiez réellement voir ce qui se passe. Vous pouvez voir qu’il génère une chose puis continue à itérer dessus et à éliminer le bruit au fil du temps jusqu’à ce que vous obteniez finalement le résultat final.
Il y a un problème : ces modèles de texte basés sur la diffusion ont tendance à ne pas être aussi bons en termes de qualité que l’architecture traditionnelle basée sur les transformers, mais ils sont beaucoup plus rapides et ils font beaucoup de progrès. J’ai demandé spécifiquement à Sundar quelle était sa vision des modèles de diffusion à l’avenir dans mon interview, alors restez à l’écoute pour cela.
Deep Think : repousser les limites du raisonnement
Google introduit également Deep Think dans le cadre de Gemini 2.5 Pro. Voici comment Deis l’explique :
« Aujourd’hui, nous améliorons encore 2.5 Pro en introduisant un nouveau mode que nous appelons Deep Think. Il pousse les performances du modèle à ses limites, offrant des résultats révolutionnaires. Deep Think utilise nos dernières recherches de pointe en matière de réflexion et de raisonnement, y compris des techniques parallèles. Jusqu’à présent, nous avons constaté des performances incroyables. Il obtient un score impressionnant sur USAMO 2025, actuellement l’un des benchmarks mathématiques les plus difficiles. »
Regardez ces benchmarks : près de 50% sur le benchmark USAMO 2025, qui correspond essentiellement aux Olympiades de mathématiques. Nous avons 80% sur Live Codebench et 84% sur MMLU, battant 03-04 Mini sur toute la ligne.
Vers des modèles du monde (World Models)
Ensuite, Google a commencé à suggérer que la série de modèles Gemini allait se transformer en « world models » (modèles du monde). Des modèles qui comprennent le monde qui nous entoure et peuvent baser leurs réponses sur la physique de l’univers. Ils n’ont pas donné beaucoup d’informations pour l’instant, mais c’est intéressant de voir qu’ils s’orientent dans cette direction. Voici l’extrait de Deis expliquant ce qui arrive :
« Vous pouvez déjà voir ces capacités émerger dans la façon dont Gemini peut utiliser sa connaissance du monde et son raisonnement pour représenter des choses dans la nature. Et dans VO, notre modèle vidéo à la pointe de la technologie, qui a une compréhension profonde de la physique intuitive, comme le comportement de la gravité, de la lumière et des matériaux. Il sait quoi faire même lorsque les prompts deviennent un peu créatifs, comme cette personne faite de radeaux de sauvetage. Comprendre l’environnement physique sera également essentiel pour la robotique. Les systèmes d’IA auront besoin de modèles du monde pour fonctionner efficacement dans le monde réel. Nous avons affiné un modèle spécialisé, Gemini Robotics, qui apprend aux robots à faire des choses utiles comme saisir, suivre des instructions et s’adapter à de nouvelles tâches à la volée. Faire de Gemini un modèle du monde complet est une étape cruciale pour débloquer un nouveau type d’IA. »
Imagine 4 : la nouvelle génération d’images
Google a également annoncé son nouveau modèle de génération d’images, Imagine 4, et il semble vraiment bon. Voici quelques exemples qu’ils ont montrés pendant la démonstration :
Une femme en robe verte, hyper-détaillée. Un oiseau de style papier. De magnifiques fleurs avec de petites gouttelettes dessus. Ils sont vraiment, vraiment beaux. Mais je pense honnêtement que cela est devenu standard maintenant. Vous devez avoir un excellent modèle de génération d’images. Mais regardez certains de ces détails sur ce chat. Vraiment bon. Et c’est 10 fois plus rapide que le modèle précédent. C’est une plainte que beaucoup de gens ont concernant GPT-4o : la génération d’images prend tellement de temps. Maintenant, nous avons une vitesse beaucoup plus rapide et nous pouvons itérer sur nos idées beaucoup plus rapidement.
VO3 : la révolution de la génération vidéo et audio
Probablement la démonstration la plus impressionnante de toutes : VO3. C’est leur modèle de génération vidéo à partir de texte, et il n’inclut pas seulement la vidéo mais maintenant aussi l’audio. Il devient vraiment un modèle de génération multimodale. Voici la démonstration :
« Ils ont laissé derrière eux une balle aujourd’hui. Elle a rebondi plus haut que je ne peux sauter. Quelle sorte de magie est-ce ? »
« Cet océan, c’est une force, une puissance sauvage et indomptée, et elle commande votre admiration à chaque vague qui se brise. »
J’ai déjà trouvé une tonne de bons exemples sur Twitter concernant V3, et je vais le tester. Mais voilà le problème : c’est vraiment cher. Google a également annoncé un nouveau niveau d’abonnement à 250 $ par mois, et il y a eu des gémissements audibles lorsqu’ils ont annoncé cela. Mais vous obtenez une limite de taux beaucoup plus élevée sur beaucoup de leurs produits. Vous avez accès à leurs versions de pointe avant tout le monde. Bien sûr, je vais payer pour cela, et je vous ferai un rapport pour vous dire comment c’est.
Lyra 2 : génération musicale avancée
Ils ont annoncé Lyra 2, un modèle de génération de musique, qui semble vraiment cool. Personnellement, ce n’est pas quelque chose que j’utilise tous les jours, mais si vous êtes dans la génération de musique, si vous êtes dans la production musicale, voilà, vous avez un nouveau produit.
Flow : le contrôle créatif pour la génération vidéo
Ensuite, ils ont également annoncé Flow, qui est un peu comme Sora. Il prend l’aspect de génération vidéo de V3, mais vous permet d’avoir beaucoup plus de contrôle créatif. Vous pouvez configurer des scènes. Vous pouvez mettre différents clips dans différents ordres. Des choses que Sora fait déjà, mais VO3 est bien meilleur en génération vidéo. Voici comment cela fonctionne :
« Levier de vitesse personnalisé en or en forme de tête de poulet. »
Et voilà, nous l’avons. C’est de la génération d’image. Et puis vous pouvez prendre cela et dire : « Plan en contre-plongée, objectif grand angle 8mm, changement de vitesse, voiture rapide et tremblante. » Vous prenez ces trois images différentes, les mettez ensemble et vous obtenez une vidéo. Vous pouvez vraiment personnaliser votre création vidéo en utilisant tous ces produits réunis dans Flow.
Vous pouvez voir que vous pouvez organiser les différents clips, vous pouvez prolonger les clips. C’est tout ce que nous avons vu avec Sora, mais maintenant disponible dans les produits Google.
Laissez-moi vous montrer le clip complet de la vidéo. Gardez à l’esprit que tous les différents éléments qui ont été assemblés, y compris les effets sonores, sont tous réalisés avec ces modèles génératifs. C’est vraiment cool. Je vais le tester et je publierai probablement une vidéo de test approfondi de V3, alors restez à l’écoute.
Lunettes Android XR : la réalité augmentée accessible
Enfin, une autre démonstration incroyablement cool : les lunettes Android XR. Ils ont fait des démonstrations en direct et, bien sûr, c’était un peu instable par moments, mais ça a fonctionné et ça a très bien fonctionné. Ce sont des lunettes très similaires aux Meta Ray-Ban, sauf qu’elles ont des projections sur les verres, donc vous pouvez voir des choses à travers les verres transparents. Ça a l’air vraiment cool.
Ce gars les porte ici même. Vous pouvez immédiatement voir qu’elles ont ce reflet intéressant. Dès qu’il est sorti, avant même que je ne sache de quoi il s’agissait, on pouvait voir que ces lunettes étaient uniques.
C’était donc la démonstration en direct. Cette personne était en coulisses portant les lunettes. Vous pouviez voir que c’était son point de vue. Regardez juste là. Vous pouviez voir la température. Vous voyez un message texte qui arrive. C’est ce qu’elle voit réellement. Et encore une fois, c’est une démonstration en direct.
À un certain moment, c’est devenu un peu saccadé, ce qu’ils n’ont pas coupé au montage, mais vous savez, cela fait partie d’une démonstration en direct. Vous pouvez voir ici que ça commence à devenir un peu saccadé. Cela n’a pas vraiment à voir avec les lunettes autant qu’avec le nombre d’appareils qui étaient connectés à Internet à ce moment-là.
Voici la partie vraiment cool. Vous pouvez voir qu’elle regarde la foule. Je suis quelque part par ici. Et oui, cela se projette sur les lunettes. Vous pouvez voir ici la recommandation de Maps. Regardez ça. Il est écrit « tournez à droite dans 500 pieds ». Et quand elle regarde vers le bas, vous pouvez réellement voir cette vue de carte en direct. C’est incroyable.
J’ai été un peu sceptique quant aux lunettes comme forme ultime de l’intelligence artificielle, mais si j’étais à l’extérieur, je les porterais certainement. C’est bien. Je ne veux simplement pas porter de lunettes à l’intérieur. Je pense que beaucoup de ces grandes entreprises technologiques pensent que les gens vont porter des lunettes tout le temps, et ce n’est pas mon cas. Peut-être que je suis minoritaire. Faites-moi savoir dans les commentaires ce que vous en pensez.
Ce sont toutes les principales annonces de l’événement. N’oubliez pas que l’interview de Sundar sera bientôt disponible. Si vous avez apprécié cette vidéo, n’hésitez pas à laisser un like et à vous abonner.
