Actualités IA : Gemini 2.5 Flash, O3 et O4, Claude Research, Kling 2.0 et bien plus encore !

Actualités IA : Gemini 2.5 Flash, O3 et O4, Claude Research, Kling 2.0 et bien plus encore !

Cette semaine a été marquée par de nombreuses sorties de nouveaux modèles d’IA frontières. Passons en revue ces innovations majeures qui transforment le paysage de l’intelligence artificielle.

Gemini 2.5 Flash : Le raisonnement hybride à prix abordable

Le premier modèle dont nous allons parler aujourd’hui est Gemini 2.5 Flash. Il s’agit de la version plus petite et plus efficace de ce qui est, selon moi, le meilleur modèle actuellement sur le marché : Gemini 2.5 Pro. Vous savez, celui qui pouvait résoudre le Rubik’s Cube en une seule fois. Nous avons maintenant une version beaucoup moins chère.

Gemini 2.5 Flash est le premier modèle de raisonnement entièrement hybride, offrant aux développeurs la possibilité d’activer ou de désactiver le mode de réflexion, ce qui est phénoménal. En tant que développeur, vous avez l’option d’obtenir simplement des réponses pour les requêtes plus simples, ou d’activer le mode de réflexion pour la logique plus complexe, le raisonnement, les mathématiques et le codage. Ils vous donnent également la possibilité de définir un budget de réflexion, soit un montant fixe de tokens à utiliser dans la fenêtre de réflexion.

Performances et comparaisons de prix

Examinons les scores de performance. Un aspect que j’apprécie dans leurs comparaisons de benchmarks est qu’ils ont inclus les modèles d’OpenAI qui venaient d’être publiés, O3 et O4 Mini. Ces modèles ont été lancés littéralement la veille, et de nombreux fournisseurs de modèles auraient pu les ignorer. Mais Google les a inclus, même si ces modèles ont surpassé Flash dans de nombreux benchmarks.

Parlons d’abord du prix, car c’est vraiment l’attribut qui distingue Gemini 2.5 Flash :

  • Prix d’entrée (par million de tokens):
  • Gemini 2.5 Flash : 0,15 $
  • O4 Mini : 1 $
  • Claude 3.7 Sonnet : 3 $
  • Gro 3 Beta : 3 $
  • DeepSeek-1 : 0,55 $

Gemini 2.5 Flash est donc même moins cher que les modèles open source !

  • Prix de sortie (par million de tokens):
  • Gemini 2.5 Flash : 0,60 $ (sans raisonnement) et 3,50 $ (avec raisonnement)

Une fois de plus, à l’exception de DeepSeek R1, il est beaucoup moins cher que les autres modèles.

Qualité et benchmarks

Quant à la qualité, voici quelques benchmarks notables :

  • Humanity’s Last Exam : 12,1% pour Gemini 2.5 Flash, contre 14,3% pour O4 Mini, 8,9% pour Claude 3.7 Sonnet, et 8,6% pour DeepSeek R1. Seul O4 Mini est meilleur.

  • GPQA Diamond (benchmark scientifique) : 78,3% pour Gemini 2.5 Flash, contre 81,4% pour OpenAI. Essentiellement à égalité avec les autres modèles.

Sur un graphique comparant le score Arena (axe y) au prix par million de tokens (axe x), nous voyons que Gemini 2.5 Pro se situe tout en haut, étant le meilleur modèle, mais toujours assez coûteux. Gemini 2.5 Flash, quant à lui, offre des performances comparables à la concurrence, bien en-dessous de Gemini 2.5 Pro, mais à un prix extrêmement bas.

Je vais réaliser une vidéo de test complète pour Gemini 2.5 Flash afin de voir comment il se compare à Pro.

OpenAI : O3, O4 Mini et GPT-4.1

OpenAI a lancé trois modèles différents cette semaine, dont deux que je vais aborder en premier : O3 et O4 Mini.

O3 et O4 Mini

O3 présente la meilleure utilisation d’outils que j’ai jamais vue. En fait, il est capable d’utiliser des outils au sein même de son processus de réflexion, ce que je n’ai vu aucun autre modèle faire.

O4 Mini est un modèle différent, plus petit, plus efficace et moins coûteux, mais les deux sont très performants.

Laissez-moi vous montrer quelque chose qui m’a complètement sidéré. J’étais en vacances la semaine dernière, et j’ai pris une capture d’écran sans métadonnées de localisation. J’ai ensuite soumis cette image à GPT-O3 en lui demandant de me dire exactement où se trouvait cette personne.

Voici sa réflexion : « L’utilisateur a demandé un emplacement précis, probablement près de Princeville, Kauai à Hawaii. D’après les détails de la photo, je dirais que c’est probablement Princeville, face à la vallée de Hanalei avec vue sur la montagne Namolokama. La végétation environnante et les structures des maisons correspondent à la région de Princeville. Il y a une chance que ce soit Maui ou Oahu. »

Et la réponse finale : « Princeville, Kauai, sur un lanai face à la vallée de Hanalei et à la montagne Namolokama. »

C’est exactement là où je me trouvais ! Essentiellement, le géorepérage a été résolu. C’est une fonctionnalité absolument incroyable et aussi un peu effrayante.

La première fois que j’ai essayé, le modèle a fait quelque chose de vraiment impressionnant : il a zoomé sur l’arrière-plan de la photo, puis a dézoomé, a zoomé sur d’autres endroits, et a identifié chaque portion de l’image pour déterminer où cela pouvait être. Cette fois, c’était beaucoup plus simple. Et pour m’assurer qu’il n’utilisait pas de souvenirs de conversations précédentes, j’ai supprimé toute mention de Kauai, Hawaii, Princeville, et j’ai confirmé que tout avait été effacé.

GPT-4.1

GPT-4.1 a été lancé en début de semaine. C’est le successeur de GPT-4.0, meilleur, plus rapide, moins cher et plus efficace. Il a presque été oublié aussi vite qu’il a été annoncé en raison des nombreux autres modèles sortis cette semaine.

Nous avons maintenant une famille de trois modèles : GPT-4.1 Nano, Mini et la version complète, par rapport à GPT-4.0 Mini et GPT-4.0 complet. Un graphique montre la compréhension multilingue sur l’axe y et la latence sur l’axe x. Malheureusement, il n’est pas étiqueté, ce qui est presque un crime contre l’humanité, mais c’est un autre modèle fantastique dans ce qui a été une semaine de lancement de modèles pour OpenAI.

Replet : Agent V2 et IDE dans le cloud

Cette vidéo est sponsorisée par Replet, la façon la plus simple de coder par vibe. Je vais vous parler de leur nouveau lancement avec Agent V2.

Replet a lancé Agents V2. Replet est un IDE phénoménal entièrement basé dans le cloud, et ils ont travaillé dur sur leurs outils de vibe coding, en particulier Agent V2. J’ai beaucoup utilisé Replet. Cela rend le codage tellement facile, en particulier le processus de déploiement.

Vous n’avez pas à vous soucier de configurer une base de données ou du déploiement après avoir codé quelque chose localement. Tout fonctionne simplement parce que c’est dans le cloud dès le départ. Avec Agent V2, vous avez un agent autonome considérablement amélioré travaillant pour vous par rapport à V1. Vous aurez cinq fois plus de chances de créer avec succès ce dont vous avez besoin avec Replet V2.

Le meilleur aspect est qu’il est entièrement basé dans le cloud. Peu importe où vous vous trouvez dans le monde ou quel ordinateur vous utilisez. Tant que vous pouvez vous connecter via un navigateur, vous avez accès à l’intégralité de votre dépôt et de votre code, facilement et de n’importe où. Vous pouvez même télécharger les applications Replet sur votre appareil Apple ou Android.

Anthropic : Claude Research et intégration Google Workspace

Anthropic, pour ne pas être laissé de côté dans la conversation cette semaine, a lancé quelques nouvelles fonctionnalités. Ils ont lancé Research, qui est essentiellement une recherche approfondie, mais ils l’ont simplement nommée Research.

Cela ressemble probablement exactement à la recherche approfondie sur Grok, Google ou OpenAI. Mais ce qui se démarque vraiment, c’est qu’ils ont une intégration dans la suite de produits Google Workspace : Gmail, Calendar, Docs. C’est incroyablement puissant.

J’attendais cela depuis longtemps. J’attendais un outil d’IA qui puisse rédiger des réponses aux e-mails pour moi, et j’ai déjà commencé à le tester avec Claude. Grok a maintenant quelque chose de similaire. Gemini a maintenant quelque chose de similaire, et ils sont tous sortis au cours de la dernière semaine environ.

Vous pouvez désormais utiliser l’IA pour rechercher et créer dans tout votre espace de travail Google, et j’utilise de nombreux produits Google. Je suis donc très enthousiaste à ce sujet.

Grok : Compound Beta et fonctionnalité mémoire

Grok GQ : Compound Beta

Divulgation : je suis un très petit investisseur dans Grok.

Grok GQ a lancé Compound Beta. Il prend les modèles open source qu’ils alimentent déjà avec des vitesses d’inférence incroyables et ajoute l’utilisation d’outils dans le cadre de l’appel API.

Les deux premiers outils que ces modèles obtiendront sont la recherche web et l’exécution de code, vraiment les deux outils les plus importants à l’heure actuelle. Compound Beta utilise l’exécution itérative d’outils côté serveur pour répondre à des requêtes complexes. Il peut décider de manière autonome quand et comment utiliser des outils tels que la recherche web et l’exécution de code, et les exécuter plusieurs fois avant de renvoyer une réponse.

C’est déjà ce que beaucoup de modèles fermés de pointe peuvent faire, mais maintenant nous l’obtenons avec Grok open-source et des vitesses d’inférence incroyables. Compound Beta est alimenté par plusieurs modèles disponibles ouvertement déjà pris en charge sur Grok Cloud, y compris les derniers modèles Llama 4. Il utilise Llama 4 Scout pour le raisonnement de base, avec Llama 3.3 70B aidant au routage et à la sélection des outils.

Grok : Fonction mémoire

Grok ajoute également la mémoire. Grok se souvient maintenant de vos conversations. Lorsque vous demandez des recommandations ou des conseils, vous obtiendrez des réponses personnalisées.

C’est une fonctionnalité incroyablement importante pour toute IA personnelle. Peut-être que certains d’entre vous ne veulent pas que l’IA se souvienne de choses vous concernant, mais personnellement, je le souhaite. Je veux développer un raccourci avec mon assistant IA. Je ne veux pas avoir à lui dire tout sur moi chaque fois que je l’interroge, et je veux qu’il fasse référence aux conversations passées.

Bien sûr, vous pouvez toujours désactiver ces souvenirs. Vous pouvez toujours supprimer les souvenirs comme je l’ai montré plus tôt, mais personnellement, je suis très enthousiaste à ce sujet.

Les souvenirs sont transparents. Vous pouvez voir exactement ce que Grok sait et choisir ce qu’il faut oublier. Pour oublier des souvenirs, appuyez sur la petite icône de livre sous le message. Bientôt disponible sur Android. C’est en version bêta disponible sur grok.com et les applications iOS et Android, à l’exclusion de l’UE et du Royaume-Uni pour des raisons évidentes.

Kling 2.0 : Amélioration de la génération vidéo

Kling, l’entreprise de modèles texte-vers-vidéo, a lancé la phase 2. Tout d’abord, Kling 2.0 Master pour la génération vidéo. Une meilleure adhérence aux prompts que le modèle 1.6. Dynamique grandement améliorée et esthétique améliorée.

Par exemple, avec l’instruction « l’homme rit d’abord joyeusement, puis devient soudainement en colère, frappant la table et se levant », voici ce que produit la version 1.6 : assez bon, mais les mains semblent un peu étranges, pas exactement naturelles.

Maintenant, regardons la nouvelle version 2.0 Master : tout semble meilleur. C’est beaucoup plus dynamique, beaucoup plus fluide. La physique semble meilleure. L’éclairage, la fumée, tout semble meilleur.

Examinons un autre exemple. Voici Kling 1.6. Nous avons une fille dans un parc. Tout le monde passe. Tout semble correct. Bien que, si vous regardez, les personnes qui passent semblent un peu maladroites. Elles marchent d’une manière peu naturelle.

Et maintenant, regardons la version 2.0. Maintenant, tout semble accéléré. C’est plus flou. Et on dirait que tout autour de la fille bouge rapidement et que la fille bouge lentement. Cela semble tellement mieux, tellement plus naturel.

Ils affirment également qu’il y a une amélioration significative de la dynamique, plus d’amplitude de mouvement sur le sujet du personnage avec des mouvements fluides et une vitesse naturelle. Aspect naturel avec des détails même pendant les mouvements les plus complexes pour une expérience immersive. Également une esthétique visuelle améliorée, des expressions plus dramatiques pour un jeu d’acteur de niveau professionnel.

OpenAI : Acquisition potentielle de Replit et réseau social

Acquisition potentielle de Replit

Il est rapporté qu’OpenAI est en pourparlers pour acheter Replit pour 3 milliards de dollars. J’ai des sentiments mitigés à ce sujet. Chaque fois que vous êtes acquis par une entreprise qui fournit l’infrastructure sous-jacente de votre produit, votre produit fonctionnera évidemment beaucoup mieux avec cette infrastructure, avec les modèles OpenAI.

Donc, si je veux utiliser Claude, si je veux utiliser Gemini, peut-être qu’à l’avenir ils ne se concentreront plus autant sur ces modèles, mais j’ai de l’espoir. Je suis optimiste qu’ils continueront à soutenir tous les modèles.

Actuellement, ce n’est qu’une information rapportée, ce n’est pas confirmé de quelque manière que ce soit, mais pour OpenAI, faire cette acquisition a beaucoup de sens. Le Vibe Coding va permettre une explosion de constructeurs, de personnes qui peuvent construire des logiciels qui ne le pouvaient pas auparavant, soit parce que la courbe d’apprentissage était trop élevée, soit parce que le coût était trop élevé. Maintenant, vous pouvez essentiellement construire tout ce que vous voulez simplement avec le langage naturel.

Et vous savez, je suis totalement pour le vibe coding. Et bien sûr, OpenAI veut s’étendre au-delà de la simple couche d’intelligence. L’intelligence, comme je l’ai dit, devient rapidement banalisée. Ils doivent donc construire des applications par-dessus. Et Replit est une excellente application au-dessus de la couche d’intelligence.

Réseau social à la X

OpenAI travaillerait apparemment sur un réseau social de type X, ce qui rend ce tweet de Sam Altman d’autant plus sensé. Le 27 février, Meta prévoyait de lancer une application Meta AI autonome dans le but de concurrencer OpenAI ChatGPT. Sam Altman a répondu : « OK, très bien. Peut-être que nous ferons une application sociale. » Il s’avère que cela pourrait en fait être vrai.

Puis : « LOL, si Facebook essaie de nous attaquer et que nous inversons simplement la situation, ce serait tellement drôle. » Sam Altman fait fréquemment cela. Il dit simplement des choses qu’ils construisent.

Je pense que c’est un excellent choix. Construire un réseau social est presque impossible, surtout aujourd’hui. L’effet de réseau est si difficile à construire. Mais ChatGPT compte déjà des centaines de millions d’utilisateurs. Obtenir cette traction initiale devrait donc être assez facile pour eux.

Pourquoi cela a-t-il beaucoup de sens ? Tout est dans les données. La raison pour laquelle X est si précieux, la raison pour laquelle les plateformes de Meta sont si précieuses, c’est parce qu’elles ont tant de données et continuellement de nouvelles données pour entraîner leurs modèles. OpenAI n’a pas cela. Ils doivent donc acheter des données, créer des données synthétiques, mais ils n’ont pas de source de données organiques comme beaucoup d’autres fournisseurs de modèles.

S’ils pouvaient construire un réseau social avec succès, ils auraient ce système de données auto-généré. Cela semble cool et j’espère qu’ils le feront. Et si c’est natif à l’IA, c’est encore mieux.

Microsoft : Computer Use dans Copilot Studio

Microsoft vient d’annoncer Computer Use dans Microsoft Copilot Studio pour l’automatisation de l’interface utilisateur. Computer Use est la prochaine frontière du comportement agentique. Cette nouvelle capacité permet à vos agents Copilot Studio de traiter les sites Web et les applications de bureau comme des outils. Avec Computer Use, les agents peuvent désormais interagir avec n’importe quel système doté d’une interface graphique utilisateur.

Parmi les exemples qu’ils montrent : saisie automatisée de données, études de marché, traitement des factures, et voici l’élément clé, réimaginer l’automatisation des processus robotiques (RPA). C’est une industrie de plusieurs milliards de dollars qu’ils disent essentiellement qu’ils vont bouleverser. Et oui, je le crois. L’utilisation du navigateur, l’utilisation de l’ordinateur, cela va changer complètement l’industrie du RPA.

Conclusion

C’est tout pour nos actualités de cette semaine. Quelle semaine incroyable ! Tout tournait autour des modèles cette semaine. Et merci encore à Replet pour avoir sponsorisé cette vidéo. Consultez-le. Je mettrai tous les liens dans la description ci-dessous. Assurez-vous non seulement de cliquer sur le lien, mais aussi d’entrer le code Matthew.

Si vous avez apprécié cette vidéo, n’hésitez pas à laisser un like et à vous abonner, et je vous retrouve dans la prochaine vidéo !