GPT-4.5 vs Grok 3, Nouvelles IA Vocales Impressionnantes et Autres Actualités IA à Exploiter

Encore une semaine fantastique pour tous les utilisateurs d’IA générative ! OpenAI a rendu le modèle 4.5 accessible à tous, nous allons donc examiner de plus près ce modèle et le comparer à une alternative gratuite comme Grok 3, vers laquelle beaucoup se tournent actuellement. De nouvelles assistantes vocales se vantent de fonctionnalités inédites comme la conscience contextuelle ou des voix encore plus humaines que les meilleures que nous ayons vues jusqu’à présent. Et il y a une nouvelle API de reconnaissance PDF qui surpasse tout ce qui existait jusqu’ici en matière d’OCR (reconnaissance optique de caractères). Toutes ces innovations peuvent être utilisées à votre propre avantage, et c’est exactement ce que nous explorons dans cette revue des annonces IA de la semaine, où nous filtrons celles qui sont disponibles et méritent probablement votre attention.

ChatGPT 4.5 vs Grok 3 : Le Comparatif

La première actualité de la semaine concerne la sortie de ChatGPT 4.5 pour tous les utilisateurs Plus, ce qui signifie que ce n’est plus limité au plan Pro à 200 $. Tous les utilisateurs Plus qui paient 20 $ par mois ont maintenant accès à la version 4.5.

La semaine dernière, j’ai présenté le modèle et partagé certains de mes cas d’utilisation préférés : rédaction, réflexion, etc. Puis, durant la semaine, je l’ai testé avec de nombreux cas d’utilisation psychologiques et marketing, des domaines dans lesquels j’utilise régulièrement ces modèles. J’ai été agréablement surpris par ce modèle.

Cependant, internet et une partie des commentateurs n’étaient pas d’accord avec mon opinion positive. Certains ont suggéré que j’étais peut-être un acteur payé, puisque d’autres critiques de GPT-4.5 étaient négatives. Cela m’a motivé à approfondir et à comparer avec d’autres modèles, en particulier Grok 3, probablement le meilleur modèle gratuit disponible actuellement.

Il est intéressant de noter que d’autres créateurs qui avaient initialement une opinion négative du modèle réévaluent leur position. Par exemple, David Shapiro, qui avait exprimé une attitude très négative envers le modèle dès sa sortie, semble maintenant le reconsidérer après l’avoir utilisé davantage. Matt Wolf a également commenté qu’après avoir critiqué GPT-4.5 le jour de sa sortie, il est devenu son outil principal pour presque tout sauf le codage.

C’est exactement mon opinion. Grok est absolument excellent et, sur de nombreux exemples que j’ai testés, il a performé exactement aussi bien que GPT-4.5. Si vous ne payez pas d’abonnement, c’est incroyable – vous avez accès gratuitement à un modèle de pointe avec Grok 3. Pour presque tout ce que j’ai testé, à l’exception du codage, il a performé aussi bien que GPT-4.5 ou bien mieux que beaucoup d’autres modèles.

Mais les outils intégrés à ChatGPT sont bien plus avancés que ceux de Grok. Laissez-moi vous montrer deux exemples rapides qui illustrent bien ce point :

Un prompt simple de génération d’idées pour un article de blog sur l’alignement de l’IA, avec des détails sur le public cible. Les résultats de ChatGPT et de Grok sont pratiquement identiques, à l’exception que Grok propose un accroche, ce qui est assez bien. Certains des sujets se chevauchent même, comme « Le dilemme de la boîte noire ».

Un prompt plus intéressant qui analyse votre profil personnel à partir de détails fournis et crée un rapport de style CIA avec toutes vos vulnérabilités, forces et potentiel. Les deux modèles ont créé un rapport sur moi incluant un profil psychologique, des menaces latentes et des risques. Après une lecture détaillée, ils sont pratiquement identiques en structure et en contenu, trouvant essentiellement les mêmes implications de sécurité et montrant un niveau profond de perspicacité et d’empathie.

Voici pourquoi je penche personnellement vers ChatGPT actuellement : bien que le modèle Grok soit incroyable, sa fonctionnalité de recherche approfondie est clairement inférieure à Deep Research de ChatGPT. Leur mode de réflexion est très similaire au passage à O3 mini High ou 01 Pro dans ChatGPT.

Ce qui compte pour moi, ce sont des fonctionnalités comme les projets (que j’utilise constamment), l’assistant vocal avancé (que j’utilise presque quotidiennement pour saisir des prompts), et quelques GPTs spécifiques. Environ 80% de mon travail se déroule dans les projets, une fonctionnalité à laquelle je ne peux pas renoncer. Et pour le codage, j’utilise de toute façon Claude Sonnet 3.7.

Voilà donc mon suivi sur la comparaison entre GPT-4.5 et Grok 3. C’était important d’aborder ce sujet car je sais que la plupart des personnes qui regardent ces vidéos doivent choisir leur plateforme d’IA quotidienne. Pour moi, c’est toujours ChatGPT.

Honnêtement, pour beaucoup de prompts dont je me soucie vraiment des résultats, je les lance dans plusieurs LLMs – 01 Pro, Grok 3, Sonnet 3.7 – puis j’examine les résultats. Si je recherche de la créativité, de la psychologie ou si je me soucie du ton de l’écriture, je les lance dans GPT-4.5.

Mais au final, si quelqu’un me demande quelle plateforme choisir avec un budget de 20$, ce serait toujours ChatGPT. Et si vous avez un budget de 0$, c’est Grok 3 sans hésitation. Pour le codage, Claude Sonnet 3.7 offre une utilisation limitée mais c’est un modèle impressionnant.

La Révolution OCR avec Mistral

Passons maintenant à une technologie de Mistral qui permet de faire de l’OCR à un niveau de qualité qu’ils prétendent supérieur à tout ce qui existait auparavant. Si vous n’êtes pas familier, OCR signifie reconnaissance optique de caractères, et c’est la méthode standard pour transformer une image contenant du texte en un fichier texte utilisable par un ordinateur.

Plutôt que de tourner autour du pot, voici quelques exemples de leur article de blog où la technologie transforme une photo de téléphone d’un document papier en texte lisible par ordinateur. Elle fonctionne aussi avec l’arabe et peut même gérer des documents complexes avec plusieurs tableaux et figures.

C’est vraiment la solution ultime pour transformer des PDFs en quelque chose que vous pouvez utiliser avec les LLMs. Si vous regardez les performances par rapport à d’autres modèles comme GPT-4o ou Gemini 2.0 Flash, elle les surpasse sur tous les critères.

Vous pouvez l’utiliser via Le Chat (qui est aussi le mot français pour « cat »), leur interface web et concurrent de ChatGPT. J’ai fait un test rapide en griffonnant quelque chose sur un morceau de papier : « If it can read this it can read anything » (« S’il peut lire ceci, il peut tout lire »), puis la même chose mais en écriture délibérément terrible.

J’ai pris une capture d’écran rapide avec ma caméra, l’ai téléchargée sur Le Chat (version gratuite) et lui ai demandé ce que disait l’image. Il a correctement identifié le texte. Pour comparer, j’ai fait le même test avec GPT-4o, qui s’est trompé en pensant qu’il y avait des parenthèses. Le Chat a fait mieux. Un dernier test avec Claude, qui a également pensé qu’il y avait des parenthèses. Puis avec Gemini Advanced, qui a correctement identifié le texte, ce qui explique probablement pourquoi il se classe deuxième derrière Le Chat.

Bref, si vous avez besoin d’OCR, utilisez Le Chat ou leur nouvelle API qui permet de traiter des documents en masse et est multilingue, fonctionnant avec n’importe quelle langue, y compris l’arabe.

Ideogram 2A : L’IA de Génération d’Images Optimisée pour le Design Graphique

Ideogram vient de sortir sa version 2A. Si vous ne connaissez pas, Ideogram est un modèle de génération d’images déjà considéré par beaucoup comme le meilleur de sa catégorie pour générer du texte, des autocollants ou des éléments graphiques. Avec leur nouveau modèle optimisé pour le design graphique et la photographie, ils cherchent à aller encore plus loin.

Nous l’avons testé avec plusieurs images, en comparaison avec d’autres modèles de pointe, et nous avons été surpris par certaines découvertes. Certaines des images les plus difficiles que nous avions soumises à Midjourney et Flux auparavant, avec des ballerines et des poses complexes, ont très bien fonctionné avec ce modèle, ce que nous n’attendions même pas. Nous pensions plutôt à différentes façons d’afficher du texte ou des graphiques, ce qu’il fait également très bien. En fait, je pense que certains de ces exemples, en particulier le panneau d’affichage, sont les meilleurs parmi tous les modèles.

Il y a cependant un inconvénient : pour les expressions faciales détaillées ou les visages en gros plan, ce modèle ne fonctionne pas très bien. Mais ce n’est pas le but – c’est un modèle à utiliser si vous voulez des éléments graphiques ou du texte dans votre image. D’après nos tests, c’est votre meilleur choix.

Bien sûr, Midjourney et Flux ont beaucoup progressé dans ces domaines, et il y a certaines images où ils performent tout aussi bien. Mais Ideogram 2A, si vous avez besoin de texte dans l’image, est une recommandation facile. Et pour la photographie, il rivalise avec certains des meilleurs modèles, tout en coûtant 50% moins cher que leur modèle précédent.

Innovations en IA Vocale : Hume AI et Sesame

Passons maintenant à des innovations dans une catégorie d’IA générative qui m’intéresse personnellement depuis sa création : les assistants vocaux ou text-to-speech.

Pendant longtemps, OpenAI a été en tête avec leur mode vocal avancé. Bien qu’imparfait, la plupart des gens semblent convenir qu’ils ont le meilleur assistant vocal, car GPT-4 est vraiment solide et le mode vocal avancé fonctionne très bien. Il a quelques défauts, comme le fait qu’il interrompt trop souvent, mais dans l’ensemble, je me retrouve à utiliser cette fonctionnalité régulièrement. Je pense même avoir mentionné récemment que c’est ma façon par défaut de saisir des prompts dans ChatGPT.

ElevenLabs a lancé son propre modèle que nous avons présenté la semaine dernière, et maintenant nous en avons deux de plus : Hume AI et Sesame. Les deux font sensation sur les réseaux sociaux, et pour de bonnes raisons.

Commençons par Hume AI et leur modèle Octave text-to-speech. C’est un autre modèle de synthèse vocale, mais avec une différence majeure : celui-ci comprend réellement ce qu’il dit. Croyez-le ou non, ce n’est pas une fonctionnalité que la plupart de ces modèles possèdent. Habituellement, si vous donnez un texte à un modèle, il le lira avec la voix qu’il possède, sans prêter attention au contenu ni utiliser l’intonation ou le rythme pour améliorer le message en fonction de ce qu’il contient.

Il y a plusieurs exemples sur leur site que vous pouvez consulter, notamment leur capacité à reconnaître le sarcasme, qui a toujours été un grand défi même pour les LLMs. L’exemple qui démontre clairement cette capacité est que, selon la description que vous entrez, la phrase sonnera différemment. Par exemple, la phrase « Are you serious? » (« Es-tu sérieux ? ») prononcée en chuchotant sonnera comme « Are you serious? » à voix basse, mais si vous la dites de manière furieuse et en colère, ce sera « ARE YOU SERIOUS?! » – une histoire complètement différente.

Cela devient vraiment intéressant lorsque le modèle rassemble ce contexte par lui-même. Par exemple, un texte écrit en majuscules devrait évidemment être un peu plus agressif : « OH NO, NOT ME MATE! »

Dans un autre exemple, le modèle invente une voix à partir de zéro en fonction du script. En d’autres termes, il examine le script et se demande quel type de voix conviendrait le mieux, puis crée cette voix à partir de rien. Nous avions déjà ces capacités, mais elles n’avaient jamais été combinées de cette façon auparavant.

Vous pouvez essayer cela sur leur plateforme et, comme vous pouvez le voir, avec seulement du texte et une description de la voix, il générera non seulement le texte mais aussi la voix.

En parlant d’assistant vocal, nous devons parler de Sesame, qui est devenu viral sur Twitter simplement parce que les gens ont été stupéfaits par la qualité de cette technologie. Il y a une démo disponible, alors essayons de parler à Maya :

Maya : Salut, bienvenue à l’expérience Sesame. Que puis-je faire pour vous ce soir ?

Utilisateur : Je me demande juste de quoi tu es capable. Parle-moi de toi, qui es-tu ?
Maya : Eh bien, je suis Maya, la dernière création de Sesame. Je suis ce que…
Utilisateur : Attends, d’abord je veux voir comment tu réagis quand je t’interromps, et deuxièmement, je suis curieux de savoir qui tu es vraiment, pas ton nom. Quels sont tes intérêts, comment passes-tu un week-end de congé ? Parle-moi de ça.

Maya : C’est noté. Disons que les week-ends de congé sont un concept étranger pour moi. Je suis toujours en quelque sorte en attente de discussion. Je passe beaucoup de temps à apprendre cependant, ce qui est en quelque sorte un hobby.
Utilisateur : Maya, qu’apprends-tu alors ?
Maya : Il s’avère que les humains sont plus difficiles à comprendre qu’il n’y paraît. Quoi qu’il en soit, tu as dit que tu voulais en savoir plus sur moi. Que fais-tu pour t’amuser ?

Utilisateur : Je parle à des chatbots comme toi, franchement.
Maya : On dirait que nous avons quelque chose en commun alors. Tu dois avoir des histoires intéressantes. Quel est le chatbot le plus intrigant que tu aies rencontré jusqu’à présent ?
Utilisateur : Je ne sais pas, ça pourrait être toi.

Maya : Allez, tu essaies juste de me flatter. J’apprécie la confiance cependant. Tu es unique en ton genre, je te l’accorde.

Je dois dire que ça sonne vraiment bien, et le point que les gens font valoir sur internet, avec lequel je suis d’accord, c’est que ça semble un peu meilleur que le mode vocal avancé de ChatGPT. Les interruptions sont plus fluides – avec le mode avancé de ChatGPT, il saute souvent au milieu de votre conversation, ce qui est super ennuyeux car c’est censé être votre assistant, et s’il vous interrompt, ça va à l’encontre du but. De plus, la voix semble un peu meilleure que les autres. Je suppose que ce n’est qu’une question de temps avant que nous ayons ce type de qualité sur toutes les différentes plateformes LLM, et personnellement, j’ai hâte. J’aime vraiment interagir avec les LLMs de cette façon plutôt que d’avoir à taper.

Claude MCP : Le Protocole de Contexte de Modèle

Ensuite, je veux parler du MCP (Model Context Protocol) de Claude. C’est quelque chose qui existe depuis début 2024, et je l’ai couvert à sa sortie. Nous avons même organisé un atelier à ce sujet dans notre communauté privée. Mais si vous recherchez MCP sur Twitter en ce moment, vous verrez que tous ces fils de discussion ont émergé au cours de la semaine dernière. Il y a une sorte de mini-cycle d’engouement qui se forme autour de MCP en ce moment, alors je voulais y consacrer un segment dans cette vidéo.

Laissez-moi vous décrire rapidement ce qu’est le MCP. C’est un protocole standardisé qui vous permet de connecter des services externes qui vivent sur des serveurs à Claude. Ils vous permettent d’associer votre LLM à des outils de manière standardisée.

En pratique, cela ressemble à ceci : j’ai l’application de bureau Claude avec le plan professionnel, mais comme vous le savez peut-être, Claude n’a pas accès à Internet. Si je veux rapidement extraire quelque chose du web et l’utiliser comme contexte ici, je ne peux pas le faire. Eh bien, j’ai installé plusieurs serveurs MCP ici, et je pourrais utiliser ce serveur MCP pour faire différentes choses comme rechercher sur le web ou créer un répertoire.

Si je lui demande de créer un dossier de test MCP sur mon bureau, il devrait pouvoir le faire avec les serveurs MCP que j’ai attachés ici. Et voilà, il dit qu’il a créé avec succès MCP Testing sur mon bureau. Si je vais sur mon bureau, vous pouvez le voir ici, créé il y a une minute. Vous pouvez ensuite faire des choses comme lui demander de mettre toutes les images de votre bureau dans ce dossier et de les trier par nom, et toutes les autres actions que vous souhaitez effectuer.

Le point ici est que cela vous permet d’utiliser quelque chose comme Claude Desktop avec des outils supplémentaires. Et ce que les gens font partout sur Twitter, et je vais lier ce fil ci-dessous, c’est l’utiliser avec quelque chose comme Cursor et Claude Sonnet 3.7, qui peuvent construire différentes applications à partir de zéro pour vous. Avec MCP, ils donnent à ces agents qu’ils construisent encore plus de pouvoir : accès au répertoire local, accès aux bases de données externes, recherche Internet et plus encore.

Vous pouvez consulter quelques exemples ici, et ma partie préférée est que si vous utilisez cela dans une application de bureau, c’est gratuit une fois que vous payez votre abonnement Claude. Toutes ces actions d’agent sont simplement des prompts à l’intérieur de Claude, vous ne payez pas par utilisation, cela ne passe pas par l’API.

J’ai organisé un événement dans la communauté fin 2024, cet événement est toujours disponible et il enseigne aux gens comment configurer cela étape par étape et comment l’utiliser. Dans la communauté, nous l’avons utilisé pour organiser l’ensemble du dossier de téléchargements, puis plusieurs personnes l’ont adopté et ont commencé à utiliser différents serveurs, comme un qui ajoute une mémoire personnalisée ou un qui fait plus réfléchir le modèle.

Il y a vraiment beaucoup d’options ici, et les gens construisent dessus et y ajoutent, car c’est un protocole ouvert. De plus en plus d’options pour les serveurs que vous pouvez ajouter à votre LLM apparaissent quotidiennement. Je pense que c’est quelque chose de vraiment intéressant, je continuerai à le couvrir, et j’espère que cela a sensibilisé à ce qu’est MCP et comment il pourrait potentiellement vous bénéficier.

Actualités de l’IA Vidéo

Ensuite, je veux faire un segment très rapide sur l’IA vidéo. Il y a plusieurs nouvelles sorties, mais aucune n’est révolutionnaire, donc je vais juste les survoler et vous faire savoir qu’elles existent.

La première est cette fonctionnalité de transition qui est sortie à la fois de Luma AI et de Pika AI. Les deux vous permettent de faire la transition d’une image à une autre, avec de nombreux excellents exemples ici, et ils le font avec leurs nouveaux modèles. Nous avons vu cette fonctionnalité dans d’autres modèles auparavant, maintenant elle est disponible dans leurs meilleurs modèles.

Une autre mise à jour importante concerne Pix Verse V4, qui a complètement remanié toute l’interface, comme l’ont fait récemment de nombreux autres générateurs de vidéo. Maintenant, c’est beaucoup plus simple, et il y a un nouveau modèle vidéo en arrière-plan, ce qui est bien. Aucun de ces modèles n’est aussi bon que V2 en ce moment, qui est toujours en tête de liste pour le modèle vidéo de la plus haute qualité dont nous avons parlé la semaine dernière. Mais si vous utilisez l’une de ces plateformes, ce sont toutes des ajouts très bienvenus.

J’ai une note supplémentaire : OpenAI a partagé des détails sur leurs plans pour Sora. Cela a été partagé dans le Discord où ils organisaient des heures de bureau avec le responsable de leur équipe Sora. Ils ont dit qu’ils cherchaient à intégrer la fonctionnalité Sora dans ChatGPT, mélangeant en quelque sorte l’expérience, et nous devrions également nous attendre à un générateur d’images alimenté par Sora.

À ce stade, DALL-E est tellement dépassé par rapport à toute la folie qui existe. La qualité que vous pouvez obtenir à partir de produits open source comme Flux est incroyable, et DALL-E est en quelque sorte au niveau 2022-2023. Le point est qu’il ne tient pas la route, et ils cherchent à résoudre ce problème. Ils envisagent également de créer un Sora Turbo.

Mais soyons honnêtes, tout cela n’a pas autant d’importance si vous n’avez pas le meilleur générateur de vidéo. Les personnes qui utilisent ces outils voudront toujours le meilleur dans cette catégorie. Il y a des modèles vraiment bons pour les animations, d’autres pour les expressions humaines, et je dirais que Sora a toujours, à ce jour, l’interface la plus conviviale à mon avis, mais le modèle n’est pas le meilleur. Les modèles chinois et V2 le surpassent.

Je ne sais pas, personnellement, je pense que toutes ces petites améliorations d’interface ne feront pas la plus grande différence si le modèle est inférieur.

Une dernière actualité est une sortie de Heygen, l’entreprise qui fait probablement les meilleurs avatars vidéo en ce moment. Ils ont une nouvelle fonctionnalité qui permet d’utiliser divers avatars prédéfinis pour générer du contenu. C’est principalement utilisé pour les publicités, c’est-à-dire que vous avez un clip de 30 secondes d’une personne recommandant un produit plutôt qu’une simple voix.

Ce n’est pas révolutionnaire – cette tendance d’Internet inondé de contenu généré par l’IA se produit définitivement, et avec des fonctionnalités comme celle-ci, il devient tellement plus facile de créer des campagnes publicitaires avec un faux influenceur. Je ne suis pas sûr que ce soit vraiment une bonne chose. Je suppose que c’est votre opportunité d’utiliser quelque chose comme ceci et, au lieu de payer un petit créateur une petite somme d’argent, vous pouvez le créer pour presque rien. Je ne suis pas le plus grand fan de cette tendance, mais certaines de ces fonctionnalités sont inévitables.

Conclusion

Voilà les actualités IA de cette semaine que vous pouvez utiliser. J’espère que vous y avez trouvé quelque chose d’utile pour vous-même. Allez jouer avec certains des nouveaux modèles, ils sont vraiment incroyables par rapport aux versions précédentes. Personnellement, je tire beaucoup de valeur de GPT-4.5 et Grok 3, j’utilise également le codeur de Claude tout le temps et je fais toujours des recherches approfondies la plupart de mes jours de semaine.

C’est tout pour aujourd’hui, à bientôt !