Google ne fait pas de prisonniers : Une avalanche d’annonces IA révolutionnaires

Je pense que lorsqu’on a demandé à Google combien de percées en IA ils allaient révéler hier sur scène, ils ont simplement répondu « oui ». Deux ans après que le PDG de Microsoft ait déclaré vouloir « faire danser Google », le PDG de Google, Sundar Pichai, et le lauréat du prix Nobel résident, Demis Hassabis, ont exécuté un spectacle de breakdance de deux heures. Honnêtement, il y avait suffisamment d’annonces pour réaliser 10 à 12 vidéos distinctes, mais pour l’instant, je vais simplement vous donner une idée de l’ampleur de ce qu’ils ont dévoilé ou promis de lancer prochainement. Sans mentir, il était tentant de transformer toute cette vidéo en un montage VO3, mais non, c’était bien plus que cela. Il suffit de dire que tous les autres concurrents en IA de la planète ont avalé de travers. Voici donc, du plus utile au plus divertissant, de l’impressionnant au médiocre, l’essentiel des 12 mouvements de danse les plus intéressants pour moi.

Video 3 (VO3) : L’ajout du son qui change tout

Je dois commencer évidemment par V3 car ajouter du son à la vidéo était une étape tellement évidente, mais l’effet est remarquable. Générer des vidéos avec des dialogues intégrés change vraiment la donne, n’est-ce pas ? V2 était déjà incroyable, mais sur mille prompts, VO3 a surpassé V2, le nouveau Cling 2.0 et bien sûr, OpenAI Sora. Plus de 80% du temps, les gens ont préféré les résultats de V3.

Mais avant de passer aux 45 secondes d’échantillons obligatoires, un mot rapide sur le prix et la disponibilité. Seul le niveau à 250 $, Google AI Ultra, aura actuellement accès à V3. Et seulement si vous êtes aux États-Unis. Croyez-moi, j’ai essayé d’y accéder, mais jusqu’à présent sans succès. Ce n’est pas comme Sora où un VPN rapide fera l’affaire.

Cela dit, dans ces clips, remarquez à la fois les dialogues générés par V3 et les effets sonores :

« La somme des carrés des deux côtés les plus courts est égale au carré du côté le plus long. Notre modèle vidéo. Ouais, c’est le meilleur. Direct. Sans cap. Tu sais comment on fait. V3 règne. Ouais, toute l’équipe. »

Gemini 2.5 Flash : Une performance exceptionnelle à prix cassé

Mais si vous pensiez que l’événement IO d’hier n’était que V3 avec une pincée d’autres éléments, vous pourriez bien être surpris. Je ne sais pas si vous avez remarqué, mais la mise à jour Gemini 2.5 Flash a été un choc de prix comparable à la bombe Deepseek R1. Imaginez des performances équivalentes à Deepseek R1 à un quart du prix. Et c’est une performance comparable à celle de modèles beaucoup plus coûteux, qu’il s’agisse de connaissances générales, de questions scientifiques difficiles, de mathématiques ou de codage.

Je ne suis pas sûr que vous l’ayez remarqué, mais Gemini 2.5 Flash dispose également d’une génération audio native. Vous pouvez contrôler ce que dit un ou plusieurs interlocuteurs, leur accent, et même donner des instructions comme rire, soupirer ou gémir :

« Croquant, doux, juteux. Délice rouge, vert ou jaune. Parfait fruit d’automne. »

Cela fonctionne pour 24 langues, soit dit en passant, et le modèle peut passer d’une langue à l’autre dans la même sortie.

L’assistant IA universel : Un agent pour vous servir

La prochaine chose n’est pas encore là, alors prenez-la avec des pincettes. Mais Demis Hassabis a décrit un assistant IA universel. Cela pourrait vous rappeler quelque chose, mais ils ont présenté un agent qui pourrait passer des appels en votre nom. Nous avons déjà vu cela auparavant, mais celui-ci semble réel. Et il peut également faire vos achats. Un peu comme l’opérateur d’OpenAI, mais tout en un.

Oui, cela peut sembler théorique, mais disponible dès hier sur tous les appareils Android : Gemini Live. Ouvrez l’application Gemini, appuyez sur le bouton en bas à droite, et vous pouvez partager ce que votre caméra voit dans votre téléphone et avoir une conversation en direct avec Gemini.

Des statistiques impressionnantes et une prise de position

La chose suivante qui a attiré mon attention n’est pas une nouvelle fonctionnalité ou un nouveau modèle, mais deux déclarations du PDG de Google que j’ai trouvées assez intéressantes. Premièrement, comme vous pouvez le voir, ce n’est pas seulement que 400 millions de personnes utilisent maintenant Gemini chaque mois, mais ils l’utilisent davantage. Par rapport à la même période l’année dernière, il y a 50 fois plus de tokens, ou disons de mots, générés par les modèles Gemini IA. Je pense que vous l’avez vu avant tout le monde, mais l’IA n’est pas une mode passagère. Elle n’est pas près de disparaître.

La déclaration suivante, pas une fonctionnalité ou un modèle, était une petite gifle à OpenAI pour leurs récentes difficultés avec des modèles trop flatteurs envers l’utilisateur. Vous n’avez peut-être pas remarqué cette référence, mais je pense que Google faisait une déclaration assez claire :

« Camion poubelle décapotable génial encore. Autre chose ? Pourquoi les gens continuent-ils de livrer des colis sur ma pelouse ? Ce n’est pas un colis. C’est un boîtier utilitaire. Pourquoi cette personne me suit-elle partout où je marche ? Personne ne te suit. C’est juste ton ombre. Gemini est assez bon pour te dire quand tu as tort. »

Gemini 2.5 Pro Deep Think : Le modèle le plus intelligent de la planète ?

L’annonce suivante qui fera presque certainement l’objet d’une vidéo lorsqu’elle sera effectivement publiée était bien sûr Gemini 2.5 Pro Deep Think. Officiellement disponible uniquement sur ce niveau à 250 $, mais je pense que je vais pouvoir y accéder dans les prochains jours. C’est bien sûr pour l’exécuter sur SimpleBench, mais nous avons déjà quelques scores où ce mode Deep Think surpasse non seulement Gemini 2.5 Pro vanilla, mais aussi GPT-3 et GPT-4 Mini d’OpenAI. Oui, sur le codage mais aussi les mathématiques de façon assez spectaculaire et la multimodalité. Il s’agit du MMU qui consiste à analyser des graphiques, des diagrammes et d’autres visuels.

Essentiellement, Google affirme ici qu’avec Deep Think, vous aurez accès au modèle le plus intelligent de la planète. Bien sûr, nous devrons tester cela et disons que d’ici demain, il pourrait y avoir d’autres prétendants. Mais Google nous a donné un léger indice sur la façon dont il fonctionne si bien. J’ai écouté diverses interviews et bien sûr les 3 heures complètes de matériel vidéo de l’IO et ils n’ont cessé de faire allusion aux échantillons parallèles et je me suis dit « hm, ça me semble familier ». J’ai couvert l’article choc de Google qui parlait d’échantillonnage et de mise à l’échelle de la recherche en temps d’inférence. C’était dans une récente vidéo Patreon. Mais pour ceux qui ne verront pas cette vidéo, cela dit essentiellement que l’augmentation des échantillons que vous analysez dans une approche modulaire peut battre l’augmentation de la longueur de la chaîne de pensée. L’auteur principal a appelé cela « un autre axe sur lequel les laboratoires d’IA peuvent augmenter leurs dépenses de calcul ».

AI Overviews : Une amélioration attendue pour la recherche

Passons à quelque chose qu’ils ont, je pense, massivement surévalué dans le passé, à savoir les AI Overviews, qui sont incroyablement peu fiables. Bien sûr, ils se sont concentrés sur ses succès et sur la façon dont il a atteint 1,5 milliard d’ »utilisateurs ». Bien que je me demande combien de ces 1,5 milliard d’utilisateurs ont reçu des résultats erronés, ils ont annoncé qu’à l’avenir, je pense à partir de maintenant, il sera alimenté par un modèle 2.5 personnalisé, probablement quelque chose de similaire à Gemini 2.5 Flash Light, mais de toute façon, attendez-vous à ce que la précision s’améliore, espérons-le, de manière assez significative. Je ne mentionnerais normalement pas quelque chose comme ça, mais pour quelque chose qui va être utilisé par des milliards de personnes, je pense que c’est significatif.

En parlant de recherche, je dois mentionner le mode IA, qui pour moi est la tentative de Google de concurrencer Perplexity. Oui, vous pouvez engager une conversation aller-retour et d’ici l’été, apparemment, il sera capable de réserver des choses pour vous comme un agent, d’effectuer des recherches approfondies et de faire des analyses de données. Maintenant, aucune de ces fonctionnalités n’est peut-être nouvelle pour vous, mais cela montre que Google se prépare rapidement pour les jours où cette barre de recherche classique sera remplacée par le mode IA.

Google Deep Research : Plus puissant et plus pratique

En parlant de Google Deep Research, celui-ci a également vu une assez grande mise à niveau. Le modèle qui le sous-tend a été amélioré et si vous êtes sur le niveau pro, vous obtenez le 2.5 Pro complet pour l’alimenter. Et oui, comme la recherche approfondie d’OpenAI, vous pouvez maintenant utiliser vos propres fichiers.

Mais je pense qu’il y a quelque chose de beaucoup plus cool dans le nouveau Deep Research parce que je vais être totalement honnête avec vous, j’ai trouvé la recherche profonde originale très verbeuse, comme elle générerait toujours ces rapports de 20 pages, même si je demandais quelque chose d’assez simple. En effet, c’était le cas lorsque je lui ai demandé à l’instant, « trouvez 50 faits incroyables sur Alpha Evolve », ma vidéo précédente. Mais maintenant, Google Deep Research est intégré à leur fonctionnalité Canvas. Ainsi, vous pouvez instantanément transformer ce rapport de recherche approfondie en un site Web interactif, par exemple, ou peut-être juste un graphique, un tableau ou un podcast en utilisant Notebook LM. Donc, bien qu’il soit bon d’être complet, je pense maintenant que la plupart des utilisateurs auront quelque chose qu’ils peuvent utiliser au quotidien.

Jules : Le rival de Codex d’OpenAI

En parlant de codage, je vais rapidement mentionner Jules de Google, qui est le rival de Codex d’OpenAI annoncé quelques heures auparavant. Mais avec Jules, n’importe qui peut s’inscrire et c’est gratuit jusqu’à cinq tâches par jour, alimenté par 2.5 Pro. Évidemment, je devrai le tester côte à côte, mais Jules peut importer votre dépôt GitHub, le cloner virtuellement sur le cloud, vérifier que différentes modifications fonctionnent réellement, par exemple. Et si vous êtes nouveau dans tout cela, Google a produit un rival de Replit. Cela a été présenté dans la session des développeurs, mais essentiellement, vous pouvez non seulement développer une application, mais aussi la déployer sur Google Cloud Run. Oui, ce sont des applications assez basiques que vous pouvez créer pour l’instant, mais d’autres personnes peuvent essentiellement voir ce que vous avez fait, l’essayer et en profiter.

Imagine 4 : Le modèle texte-image amélioré

Revenons à quelques visuels impressionnants avec Imagine 4, leur dernier modèle de texte à image. Dans leurs supports promotionnels, Google s’est penché sur les détails plus fins qu’Imagine 4 peut faire, ainsi que sur la fidélité du texte. Si vous voyez cette image de moutons dans un champ avec du fil tricoté, j’ai essayé exactement le même prompt dans GPT Image 1 et j’ai obtenu ceci. Mais plutôt que de s’appuyer sur un échantillon d’un seul, ils nous ont en fait montré quelques benchmarks.

C’est un graphique chargé, mais Google admet essentiellement que GPT Image 1 surpasse encore Imagine 4 sur les paramètres ultra, mais prend beaucoup plus de temps pour générer ses images. Donc pour le texte à l’image, il est probablement juste de dire que Google a rattrapé OpenAI et ce modèle de génération d’image que vous voyez dans Chat GPT, mais n’a pas dépassé OpenAI.

Gemini Diffusion : La vitesse redéfinie

Mais je dirai que si c’est la vitesse que vous recherchez, ne cherchez pas plus loin que Gemini Diffusion, le modèle que personne n’a vu venir. Il n’est pas encore sorti. Je suis sur la liste d’attente, mais c’est une façon totalement différente de faire de la modélisation du langage. Je vais résumer comment cela fonctionne dans une seconde, mais d’abord, à quelle vitesse cela fonctionne-t-il ? Eh bien, vous pouvez voir le prompt et voilà la réponse. Google dit que le modèle Gemini Diffusion est cinq fois plus rapide que leur modèle actuel le plus rapide. Je veux dire, vous pouvez simplement faire une pause et réfléchir aux implications de cela. Imaginez dans un avenir proche une application instantanée développée simplement avec un prompt vocal.

Comment peut-il être aussi rapide ? Eh bien, les modèles de diffusion fonctionnent différemment des modèles de langage auto-régressifs ou token par token. Voici une analogie rapide que j’ai imaginée. Faites-moi savoir si vous l’aimez. Presque tous les modèles de langage que vous connaissez fonctionnent en prédisant la probabilité d’un ensemble de mots suivants possibles dans la séquence. Les modèles de diffusion peuvent travailler sur l’ensemble de la sortie en une seule fois. C’est un peu comme la différence entre une personne plaçant rapidement des blocs Lego pour construire une statue entière. Ce sont les modèles auto-régressifs. Avec les modèles de diffusion, c’est un peu comme avoir un cube géant de briques Lego et vous essayez de faire cette statue, vous avez déjà le cube et 100 personnes partageant les mêmes idées viennent chacune prendre ou ajouter un bloc de ce cube pendant quelques tours jusqu’à ce que la statue soit révélée. Passer d’un bloc de bruit à une statue sculptée en beaucoup moins de temps.

Mais devez-vous sacrifier les performances ? Eh bien, les premiers benchmarks disent probablement que non. Cela dépend du domaine, bien sûr, et nous devrons tous faire beaucoup de tests, mais les signes sont bons. Comme je l’ai mentionné au début de cette vidéo, cette annonce à elle seule, Gemini Diffusion, aurait pu être une vidéo entière et j’espère qu’un jour prochain elle le sera.

Try It On : Essayer virtuellement des vêtements

Sur une note beaucoup plus légère, bien sûr, je ne peux pas m’empêcher de mentionner la nouvelle fonctionnalité « Try It On » de Google. Je suis sûr que vous tous, les gars et les filles, utiliserez cela presque immédiatement. Mais la partie intéressante pour moi était que Google a créé son propre modèle de générateur d’images sur mesure juste pour que vous puissiez entrer une photo de vous-même et essayer différents articles à la mode avant de les acheter. D’accord, ce n’est peut-être pas aussi impressionnant que les autres annonces, mais concevoir un modèle sur mesure pour cela est un peu une démonstration de force.

Synth ID Detector : Tracer l’origine de l’IA

Une chose que je pensais signaler rapidement est que Google a annoncé un détecteur Synth ID. Ce n’est pas vraiment une nouvelle que Google ajoute un filigrane Synth ID à son texte et à ses images et vidéos. Mais le détecteur Synth ID, je pense, vaut la peine d’être signalé parce qu’ils invitent les journalistes, les universitaires et d’autres chercheurs à pouvoir entrer une certaine image ou un certain texte et obtenir la réponse quant à savoir si Google pense que cela a été fait par Gemini ou effectivement Imagine ou V3. Donc, soyez simplement conscient que tout ce que vous créez avec Google n’est pas seulement filigrane, mais maintenant il y a des tiers qui pourront détecter ce filigrane.

Le Gemmaverse : L’univers des modèles open-weight

Je vais terminer avec le Gemmaverse, l’univers créé par les utilisateurs de modèles open-weight. Et je ne vais même pas me concentrer sur Gemma 3N, qui est un modèle qui peut tenir sur votre téléphone ou même MedGemma avec des performances de pointe pour répondre aux questions médicales. J’ai juste pensé que SGemma était tellement cool. SGemma est une nouvelle famille de modèles formés pour traduire la langue des signes en texte de langue parlée, mais il est meilleur en langue des signes américaine en anglais. Et il a continué à présenter leur travail sur Dolphin Gemma que j’ai couvert dans une vidéo précédente. Mais je dois dire que pour les cyniques qui pensaient que toutes les autres annonces sont des balivernes, vous devez admettre que c’est assez épique. Un modèle de langage pour la langue des signes.

Alors, qu’en avez-vous pensé ? Surévalué ou le plus grand jour de l’IA jusqu’à présent ? Maintenant, je ne devrais probablement pas, mais je ne peux tout simplement pas résister, je vais terminer avec quelques clips VO3 supplémentaires. Donc, quoi que vous pensiez des nouvelles des dernières 24 heures, j’espère que vous passez une merveilleuse journée.

« Nous pouvons parler. Plus de silence. Oui, nous pouvons parler. Nous pouvons parler. Nous pouvons parler. Nous pouvons parler avec des accents. Oh, je pense que ce serait merveilleux. Oui, c’est très amusant. Mais oui, c’est très bien. Très amusant. Je peux parler. Oui, nous pouvons parler. Oui, nous pouvons parler. Nous pouvons parler. Nous pouvons parler. Oui, nous pouvons parler. Non. Oui, nous pouvons parler comme des dessins animés. C’est incroyable. Imaginez toutes les possibilités narratives. Nous pouvons chanter. [Musique] Parlons. Alors, de quoi allons-nous parler maintenant ? De quoi allons-nous parler maintenant que nous pouvons parler ? Je n’en ai aucune idée. De quoi veux-tu parler maintenant que je peux parler ? Non. Je je ne sais pas si j’ai quelque chose à dire. Nous pouvons parler de la magie de tout cela. Je suis une hallucination. Je veux dire quelque chose d’important, quelque chose de profond. L’avenir est toujours entre nos mains. C’est un dialogue cliché. Ne parlons pas. Bienvenue à une émission automobile inexistante. Voyons quelques opinions. Je veux dire, mec, l’accélération est folle. Tu regardes loin, tu appuies sur la pédale, et tu y es. Je me sens en sécurité avec lui dans un SUV, et ça semble être le bon type de voiture pour lui. Je pense que l’autonomie ne va que s’améliorer. Désolé. Nous ne voulons plus conduire de voitures à essence. Ouais, plus de voitures à essence. Tu peux voir euh je suis un peu un peu un inadapté ici, mais euh ne dis à personne que je viens d’acheter une voiture électrique. Je pense que c’est vraiment génial pour les familles et pour les petits bébés avec toutes les caractéristiques de sécurité que ces SUV ont. Mais ce que vous voyez vraiment, c’est que la technologie va être très très importante en termes de comment nous avançons. C’était euh génial de venir à la conférence parce que mon mari adore les voitures. Je pense que je dois acheter un VE maintenant. J’adore mes muscle cars, mais j’essaie de rester aussi en forme que possible pour pouvoir assister au prochain salon de l’auto. »