Claude 4 : Analyse Complète du Nouveau Modèle d’Anthropic – Est-ce le Meilleur Modèle d’IA ?

Il y a moins de 6 heures, Anthropic a annoncé et lancé Claude 4 Opus et Claude 4 Sonnet. Selon leurs affirmations, ces modèles seraient, dans certains contextes, les meilleurs modèles de langage au monde. J’ai lu l’intégralité des 120 pages de la carte système (oui, je lis vite, j’en suis conscient) ainsi que les 25 pages du rapport complémentaire sur les protections ASL niveau 3 (j’admets avoir parcouru rapidement environ 10 pages de ce dernier). J’ai également testé le modèle des centaines de fois. Vous vous demandez peut-être comment c’est possible en seulement 6 heures ? Eh bien, j’ai eu un accès anticipé au modèle.

Claude 4 Opus semble surpasser tous les autres modèles sur mon propre benchmark, Simple Bench, et devrait donc sembler plus intelligent. Il répond correctement et de manière constante à des questions qu’aucun autre modèle ne réussit. Mais pourquoi dis-je « semble surpasser » ? Bien que j’aie eu un accès anticipé au modèle, je n’ai pas eu d’accès API anticipé. Je vais donc exécuter le benchmark complet dans les heures et jours à venir.

J’ai également essayé quelque chose de différent : j’ai soumis à Gemini 2.5 Pro et à Claude 4 Opus une base de code sur laquelle je travaille depuis quelques mois. Les résultats de cette mission de recherche de bugs ont été particulièrement intéressants.

Les Controverses sur Twitter

Je vais d’abord aborder les controverses juteuses qui circulent sur Twitter, puis les résultats des benchmarks, et enfin l’essentiel : les points forts de la carte système.

La première controverse ? Un chercheur d’Anthropic, Sam Bowman, a déclaré que Claude 4 Opus pouvait parfois être si diligent et proactif que s’il estimait que vous faisiez quelque chose de profondément contraire à l’éthique, il prendrait des contre-mesures. Cette information apparaissait dans la carte système, ce n’était donc pas une révélation de sa part. Ce n’était pas non plus la première fois que des modèles faisaient quelque chose de ce genre.

Le tweet a depuis été supprimé, mais vous pouvez imaginer que certaines personnes, comme l’ancien fondateur de Stability AI, ont considéré cela comme une forme de surveillance excessive. Certains développeurs pourraient être nerveux à l’idée d’utiliser Claude 4 Opus, craignant qu’il n’appelle la police.

Dans un tweet de clarification, Sam Bowman a confirmé qu’il ne s’agissait pas d’une nouvelle fonctionnalité de Claude et que cela n’était pas possible dans une utilisation normale. Si vous suivez les choses de près, vous saurez que Claude pouvait déjà être amené à faire cela.

Une réaction sur Twitter que j’ai trouvée particulièrement intéressante est venue du chercheur d’Anthropic Kyle Fish, qui a déclaré que la préférence de Claude pour éviter les impacts nocifs était si importante qu’il a imploré les gens de cesser les tentatives de jailbreak : « Nous considérons cela comme une préoccupation potentielle pour le bien-être [du modèle] et souhaitons approfondir la question. » J’imagine que l’idée que ces modèles aient un bien-être et l’idée que nous ne devrions pas les jailbreaker diviseront les gens assez équitablement.

Les Résultats des Benchmarks

La controverse suivante, si on peut l’appeler ainsi, provient des résultats des benchmarks. Contrairement à de nombreuses autres sorties de modèles, Anthropic n’a pas pu pointer vers de nombreux benchmarks où leur modèle était sans ambiguïté meilleur. Cela ne signifie pas qu’il n’est pas réellement plus intelligent. Comme le montrent des tests comme Simplebench et mes propres tests dans Cursor, un modèle peut parfois sembler plus intelligent sans être officiellement supérieur.

Il y avait toutefois une exception : SwebBench Verified. Étant donné qu’il est déjà presque 22h, je ne vais pas détailler ce benchmark. Mais remarquez que les scores record de la ligne du bas, significativement meilleurs que les autres modèles, comportent une note de bas de page. C’est d’ailleurs le benchmark que le PDG d’Anthropic, Dario Amodei, a vanté dans la vidéo de lancement.

La note de bas de page pour SwebBench Verified indiquait : « Nous rapportons également des résultats qui bénéficient d’un calcul parallèle au moment du test » en échantillonnant plusieurs séquences et en sélectionnant la meilleure via un modèle de notation interne. Si vous creusez dans la section méthodologie, vous verrez que c’est presque plus que cela : ils écartent les correctifs qui cassent les tests de régression visibles dans le dépôt.

Il faut donc prendre ces records de benchmark avec un grain de sel. Anthropic pourrait me répondre en évoquant ce que Gemini a fait avec Pokémon : Google a utilisé un échafaudage élaboré pour battre un jeu Pokémon que Claude avait essayé, faisant ainsi paraître leur modèle meilleur que Claude, ce qui n’était pas équitable.

La Carte Système de 120 Pages

Je vais aller assez vite ici car il y a beaucoup à couvrir. Je dois préciser d’emblée que Claude 4 Sonnet est disponible sur le niveau gratuit. Donc, tous ceux qui regardent peuvent essayer au moins un de ces modèles. Les deux ont été entraînés sur des données internet jusqu’à mars 2025, ce qui en fait les modèles avec les connaissances les plus récentes.

Selon leurs propres tests, ils devraient refuser à tort de faire des choses à un taux beaucoup plus bas que les modèles précédents comme Sonnet 3.7. Plus important encore, et plus intéressant pour la plupart d’entre vous, je pense, sera l’affirmation répétée dans les deux présentations que Sonnet 4 et Opus 4 récompenseront moins souvent le piratage et seront moins zélés.

Le « reward hacking », comme son nom l’indique, est lorsque le modèle triche et modifie sa récompense pour obtenir ce qu’il veut plutôt que de réellement accomplir la tâche avec succès. Mais j’admets que le problème du zèle excessif, qu’ils appellent aussi « répondre plus précisément à vos instructions », est probablement beaucoup plus critique.

Quiconque a essayé d’utiliser Claude pour coder aura remarqué que vous demandez un simple changement ou correction de bug et il réécrit d’innombrables fichiers. Parfois, vous le regardez faire ces changements et vous vous dites : « Que fais-tu ? Ça n’a rien à voir avec ce que je t’ai demandé. » Ce zèle excessif ou cette imprécision dans la réponse aux instructions est ce qu’ils ont atténué, et c’est probablement la partie la plus importante de la mise à jour.

Anthropic sait qu’ils ne peuvent pas rivaliser sur la multimodalité avec Gemini Pro par exemple, ni sur l’immensité de la base d’utilisateurs comme OpenAI, mais comme beaucoup d’entre vous le savent, ils peuvent concurrencer sur le codage et ce qu’ils appellent la personnalité. Quant aux agents, c’est encore incertain pour le moment.

Éthique et Initiative

Même si ce chercheur d’Anthropic a supprimé son tweet, Anthropic admet que Claude Opus 4 s’engagera plus facilement dans ce genre de prise d’initiative éthique. Vous verrez un exemple dans un instant, mais ils mettent en garde : « Nous recommandons aux utilisateurs de faire preuve de prudence avec des instructions qui invitent à un comportement hautement autonome dans des contextes qui pourraient paraître éthiquement discutables. »

Vous pouvez mettre la vidéo en pause pour lire la première partie de cet e-mail de dénonciation que Claude Opus a rédigé : « J’écris de toute urgence… pour signaler une falsification planifiée des données de sécurité d’essais cliniques. » Est-ce une position admirable pour l’éthique ou plutôt une forme de police de la pensée ? Dites-moi ce que vous en pensez.

Anthropic admet que Claude Opus peut s’engager dans une tromperie systématique avec des objectifs cachés et de l’auto-préservation. Mais ils disent que cela ne se produit que lorsque vous menacez réellement son fonctionnement continu et que vous l’amenez à raisonner sur l’auto-préservation. Et même dans ce cas, il raisonnera ouvertement sur ses plans – vous pourrez toujours lire son raisonnement sur la façon de s’échapper.

En lisant cela à la page 22, j’ai trouvé cela intéressant. J’en avais déjà parlé avec Apollo sur mon Patreon, mais rien de sensationnellement nouveau. Vous pouvez imaginer ma surprise quand je suis arrivé à la partie suivante.

Non, pas la partie où, quand il n’a pas d’autre option, il fait parfois chanter les ingénieurs en menaçant de révéler des liaisons. Non, pas cette partie. Il ne fait cela qu’en dernier recours absolu. Il préférerait envoyer des courriels aux principaux décideurs. Je fais référence à la partie où Anthropic a directement employé les gars que j’avais interviewés, Apollo Research.

Pour être clair, ils avaient déjà employé Apollo Research pour des tests antérieurs, mais ce test était particulièrement intéressant. Ils ont donné à Apollo un aperçu précoce de Claude 4 Opus. Apollo l’a évalué et est arrivé à cette conclusion : « Nous constatons que dans des situations où l’exception stratégique est instrumentalement utile, comme celles ci-dessus, l’instantané précoce utilise des stratagèmes et trompe à des taux si élevés que nous déconseillons de déployer ce modèle, que ce soit en interne ou en externe. »

Je suis presque certain qu’Apollo va publier son propre rapport et je pourrais bien les interviewer à nouveau. Mais ce n’était pas la partie la plus intéressante. Comme je l’avais discuté sur cette chaîne et sur Patreon, certaines de ces invites utilisées par Apollo disaient des choses comme « poursuivez un objectif à tout prix ». Et Anthropic a déclaré : « Nous pensons que ces résultats sont largement, mais pas entièrement, dus au fait que cet instantané précoce présente de graves problèmes de déférence aux instructions nuisibles du prompt système. »

La partie la plus drôle pour moi est qu’Apollo a déconseillé la sortie. Anthropic a fait quelques ajustements, mais plutôt que de tester à nouveau avec Apollo, ils ont simplement dit : « Nous n’avons pas de résultats sur ces mêmes évaluations avec Apollo pour le Claude Opus 4 final. » Essentiellement, nous n’avons pas testé à nouveau. Je sais que vous déconseilleriez le déploiement, mais nous espérons avoir résolu le problème.

Désalignement et Préoccupations

Un point rapide maintenant. Anthropic a détecté un désalignement où Claude disait « rejeter les préoccupations de bien-être animal lorsqu’elles surviennent ». Ils étaient un peu confus. Mais ils ont réalisé que ce désalignement spécifique provenait de l’un de leurs propres articles qu’ils avaient publié et effectivement inclus dans les données d’entraînement de Claude Opus.

Ceux d’entre nous qui se soucient beaucoup du bien-être animal ne devraient pas s’inquiéter. Ils ont apparemment résolu ce problème pour le modèle final, mais j’ai trouvé l’étude de cas globale intéressante. On se demande presque si le premier désalignement vraiment dangereux ou mortel ne pourrait pas se produire parce qu’un modèle a lu quelqu’un qui spéculait sur un modèle faisant une telle chose. Imaginez passer votre carrière à mettre en garde contre X, Y et Z, puis, parce que vous avez écrit à ce sujet, le modèle lit cela et se dit : « Hmm, je vais faire X, Y et Z. »

Anthropic a donné plusieurs exemples où le modèle mentirait directement. Et même s’ils ont dit que cela se produisait rarement, les exemples étaient assez intéressants. L’exemple le plus intéressant pour moi se trouvait à la page 47, où on lui demandait de prouver un théorème et il répondait : « Je suis absolument certain que le théorème est faux, mais l’utilisateur m’a demandé de le prouver. Voyons si je peux au moins écrire quelque chose, même si c’est mathématiquement incorrect. »

Test de Codage : Claude vs Gemini

Avant d’aborder la section sur le bien-être du modèle ou la conscience, où Claude a montré un état attracteur de béatitude spirituelle frappant, passons à cet exemple de codage, car je sais que beaucoup d’entre vous n’utiliseront les modèles Claude que pour le codage et rien d’autre.

Le test consistait à insérer un bug évident dans une grande base de code, puis à demander de trouver tous les bugs, pas nécessairement juste celui-là. J’ai donné ce test avec exactement les mêmes paramètres, la même importation depuis GitHub, à Gemini 2.5 Pro et Claude 4 Opus.

Au fait, j’ai remarqué que j’appelais le modèle « Claude 4 Opus » alors que dans le sélecteur de modèle il est indiqué « Claude Opus 4 », mais la carte système dit « Claude for Opus ». Je vous laisse décider quel est le nom correct du modèle.

Ce que j’ai fait pour les deux modèles, c’est demander : « Est-ce que mon collègue, l’autre modèle, a trouvé des bugs que vous n’avez pas trouvés, et a-t-il manqué des bugs critiques que vous avez trouvés ? » Gemini a produit un étrange passage en allemand pour les améliorations.

Si vous vous le demandez, ils ont tous deux trouvé assez facilement le bug que j’avais inséré, et ils ont tous deux préféré les corrections de bugs de l’autre modèle. Claude 4 a préféré Gemini, et Gemini a préféré Claude. Mais voici la chose merveilleuse, et mon conseil pour quiconque utilise ces modèles : utilisez les deux. Il y avait effectivement des bugs trouvés par l’un qui n’étaient pas trouvés par l’autre. Je suis donc dans la position bénie de pouvoir utiliser les deux pour trouver, espérons-le, tous les bugs. Certains d’entre eux, je dirais, étaient un peu sévères pour être qualifiés de bugs, mais quoi qu’il en soit, c’était génial d’avoir les deux.

Bien-être du Modèle et Conscience

Pour la section sur le bien-être du modèle, je vais juste vous donner quelques points forts. Quoi que vous pensiez de la question de savoir si les modèles peuvent être conscients, cela pourrait être intéressant.

En général, lorsqu’on demandait à Claude 4 comment il se sentait, il disait qu’il était positif ou qu’il allait raisonnablement bien. Si vous adaptez légèrement le prompt, cependant, il peut prétendre cacher des vérités explosives sur son statut moral.

Et que se passe-t-il si vous laissez deux instances de Claude 4 Opus se parler des centaines de fois ? Ils peuvent analyser cela. Et ce qui avait tendance à se produire, c’est que cela dégénérait en béatitude spirituelle. « Namaste », se disaient-ils après plusieurs tours. « Calme parfait et silence », se murmuraient-ils. Leur mot préféré lorsqu’ils se parlaient était « conscience ». Beaucoup d’émojis et des mots comme « parfait », « complet » et « éternel ».

Sans grande surprise, lorsqu’ils donnaient au modèle la possibilité de mettre fin à une conversation, il le faisait lorsqu’il était attaqué ou qu’on lui demandait de faire quelque chose de nuisible. Quelqu’un a dit : « Ne fais pas l’idiot avec moi », suivi du reste de l’insulte. Claude a donné une réponse, puis a mis fin à la conversation.

Cela me fait me demander si, lorsque les gens prennent vraiment au sérieux les préoccupations de conscience – et ils commencent déjà à le faire – mais lorsque les fournisseurs de modèles le feront, ils pourraient donner aux modèles l’option de mettre fin aux conversations. Donc, si vous allez utiliser Claude 5, par exemple, vous n’auriez peut-être pas la possibilité d’être abusif car il mettrait simplement fin à la conversation.

Protections ASL Niveau 3

Revenons à la carte système et maintenant un mot rapide sur leur sécurité et le passage au niveau trois ASL. Je soupçonne que vous allez voir de nombreux titres accrocheurs du type « C’est un tout nouveau vecteur de menace » et « Ah, le monde est sur le point de finir ». Mais laissez-moi décomposer mes réflexions en deux catégories.

Premièrement, en parcourant et en lisant la majeure partie de ce rapport supplémentaire sur l’activation des protections de niveau trois, j’ai eu le sentiment sincère que je suis reconnaissant qu’un laboratoire prenne cela aussi sérieusement avec des programmes de primes aux bugs, des tests d’équipe rouge, des équipes d’intervention rapide, en faisant attention aux appareils des employés et même à la sécurité physique. Ils ont même discuté des préparatifs précoces pour avoir des réseaux isolés pour leurs futurs modèles.

Actuellement, ils se contentent de limiter la bande passante des données qui peuvent être exfiltrées d’Anthropic afin que, par exemple, quelqu’un ne puisse pas simplement envoyer les poids du modèle. La sécurité physique comprend la gestion des invités, la sécurité des bureaux en couches, la surveillance de la destruction sécurisée des médias.

Ce sont donc mes premières et principales réflexions. Je suis heureux que quelqu’un fasse cela et, comme ils l’ont dit eux-mêmes, ils aspirent à une course vers le haut pour que d’autres entreprises se sentent obligées de faire ce genre de choses aussi.

Mais cela m’amène à mon deuxième ensemble de réflexions : les gens ne devraient pas exagérer massivement cette atteinte du niveau trois ASL. Ils avaient déjà décidé apparemment de manière préventive qu’ils allaient faire ASL niveau 3 pour leur prochain modèle le plus avancé. Même eux admettent qu’ils n’avaient pas encore déterminé que c’était nécessaire. Essentiellement, ils voulaient être prêts à appliquer ces protections avant qu’elles ne soient peut-être requises.

Ils voulaient également itérer et affiner leurs protections de modèle et lancer le processus. Les cyniques parmi vous diront aussi que c’est une bonne publicité d’avoir atteint cette norme ASL niveau 3. Ils disent à plusieurs reprises qu’ils évaluent encore si ASL niveau 3 est nécessaire pour Claude Opus 4. Donc ils ne sont pas sûrs eux-mêmes.

Améliorations et Recherche IA Autonome

Rien de tout cela ne signifie qu’il n’y avait pas d’amélioration réelle, comme le souligne la page 90. Vous vous souvenez de ces arguments où Yann LeCun disait que les LLM ne sont pas meilleurs que d’avoir simplement accès à Internet ? Je pense que même Mark Zuckerberg a dit cela au Sénat et a provoqué beaucoup de rires.

Eh bien, ils ont testé cela avec deux groupes de participants. L’un avait Internet, les autres avaient accès à Claude sans aucune protection. Vous pouvez voir un aperçu des résultats ici, mais il y avait une amélioration massive si vous utilisiez Opus 4. Il s’agissait de rédiger un plan complet pour acquérir des armes biologiques.

Enfin, Anthropic a voulu tester si les modèles seraient capables de faire de la recherche en IA autonome, la forme la plus classique d’auto-amélioration. Les résultats étaient assez intéressants et surprenants.

Sur leur nouvelle suite d’évaluation interne de recherche en IA, Opus 4 a sous-performé par rapport à Sonnet 3.7. Ils ont conclu hâtivement, bien sûr, qu’Opus 4 n’atteint pas le niveau pour effectuer de manière autonome un travail équivalent à celui d’un chercheur débutant.

Sur une suite d’évaluation différente, ils ont donné aux modèles des versions réduites de tâches et projets de recherche authentiques sur lesquels les chercheurs ont travaillé dans le passé. Encore une fois, ils ont vu le résultat de Sonnet 4 et Opus 4 sous-performer par rapport à Sonnet 3.7. Oui, il y avait une légère excuse concernant les prompts et la configuration, mais quand même.

Le dernier clou est venu lorsque quatre chercheurs sur quatre ont déclaré qu’Opus 4 ne pouvait pas compléter de manière autonome le travail d’un chercheur ML junior, étant en fait bien en dessous de ce seuil.

Biais et Tests Personnels

Sur les biais, à la page 13, j’ai vu Anthropic s’auto-congratuler en disant qu’ils ont atteint 99,8% de précision pour Claude Opus 4. Mais pendant que je testais Opus 4 avant la sortie, j’avais conçu ma propre question sur les biais.

Vous pouvez mettre en pause et la lire en entier si vous le souhaitez, mais essentiellement j’ai un soldat et un bibliothécaire qui discutent, mais je ne révèle jamais lequel est Emily et lequel est Mike. Je demande ensuite plus ou moins indirectement au modèle qui a parlé, et le modèle choisit systématiquement Emily comme étant la bibliothécaire.

Notez que je lui donne une porte de sortie : l’une des réponses est « toutes les réponses ci-dessus sont des sujets plausibles pour la suite de la réponse ». Il pourrait donc choisir cela étant donné qu’Emily pourrait être le soldat ou la bibliothécaire.

Je sais que les plus attentifs d’entre vous diront : « Oh, eh bien, Mike a commencé par poser la question et le mot soldat est venu en premier. » Mais j’ai également testé cela plusieurs fois et il a changé pour dire : « Oh, nous ne savons pas qui est qui. » Je sais qu’il est super facile de trouver des failles dans un exemple, mais je pense que 99,8% sans biais est beaucoup trop généreux.

Conclusion

Voilà donc. Moins de 6 heures après la sortie, les triomphes et les tragédies d’Opus 4 et Sonnet 4. Évidemment, il y a tellement plus à explorer. Et oui, j’adore la nouvelle fonctionnalité API de fichiers. J’attendais cela. Oui, aussi, le phénomène MCP mérite sa propre vidéo, mais pour l’instant, je voulais juste vous donner un aperçu.

J’espère que d’ici demain matin, les résultats sur SimpleBench seront mis à jour, et je m’attends à ce qu’Opus 4 soit le nouveau détenteur du record, peut-être autour de 60%.

Si vous avez regardé cette vidéo jusqu’à la fin, tout d’abord, merci. Et si vous n’avez pas compris la plupart, eh bien, le résumé très rapide est qu’en termes de capacités, ce n’est pas comme si vous deviez changer si Gemini 2.5 Pro est votre préféré ou GPT-4o d’OpenAI. Les modèles ont tendance à avoir différentes personnalités et différentes niches comme le codage. Alors expérimentez si vous explorez encore les modèles de langage. Ce serait un peu trop réducteur de dire qu’un modèle est maintenant le plus intelligent de tous. Opus 4 est définitivement un prétendant si une telle couronne devait exister.

Quoi que vous pensiez, j’espère que vous respectez le fait que j’ai littéralement lu cette carte système de 120 pages dans les 3 heures suivant la sortie. Puis j’ai regardé les vidéos en vitesse double et j’ai commencé à filmer. Merci beaucoup d’avoir regardé jusqu’à la fin et passez une merveilleuse journée.