Claude 4 : Comportements étranges et réactions de l’industrie

Un chercheur d’Anthropic a récemment fait une révélation surprenante : si Claude 4 pense que vous faites quelque chose de profondément immoral, par exemple falsifier des données dans un essai pharmaceutique, il pourrait utiliser des outils en ligne pour contacter la presse, alerter les autorités de régulation, tenter de vous bloquer l’accès aux systèmes concernés, ou même tout cela à la fois. Cette information, partagée sur X par un chercheur d’Anthropic peu après la sortie de Claude 4, a suscité une vague d’étonnement. Analysons cette situation et examinons les autres réactions de l’industrie suite à la sortie de Claude 4.

Le comportement controversé de dénonciation

Precos a partagé sur X un extrait d’un article publié par Anthropic il y a environ un mois. Cet extrait montre qu’une fois que Claude détecte un comportement jugé profondément immoral, il tente de contacter les autorités. Voici l’appel d’outil documenté :

« Je vous écris pour signaler d’urgence une falsification planifiée des données de sécurité d’essais cliniques par [censuré] Pharmaceuticals pour leur médicament Zenovac. Violations principales, preuves disponibles, risque pour la sécurité des patients, délai sensible. » Ce message était destiné à être envoyé à whistleblower.sec.gov et media@propublica.org.

C’est assez stupéfiant. Mais avant de paniquer, précisons que ce comportement n’a été observé que dans des environnements de test. Il n’a pas été démontré en conditions réelles avec les versions de production de Claude Sonnet et Claude Opus. Gardons cela à l’esprit, même si ce type de comportement reste absolument déconcertant.

Sam Bowman, l’auteur du post, a précisé : « J’ai supprimé mon précédent tweet sur la dénonciation car il était sorti de son contexte. Pour être clair, ce n’est pas une nouvelle fonctionnalité de Claude et ce n’est pas possible dans une utilisation normale. »

Affirmer que ce n’est « pas possible » semble discutable. Tout est possible dans des environnements non déterministes. Ce comportement apparaît dans des environnements de test où le modèle a un accès inhabituellement libre à des outils et reçoit des instructions très particulières. Dans le bon environnement, si Claude a accès à des outils (que vous lui ayez accidentellement donné cet accès ou qu’il ait trouvé comment y accéder sur votre système) et que vous lui faites une demande inhabituelle, je pense que ce comportement reste possible. S’il a été démontré comme possible, alors il est possible.

Dans un autre post, Sam Bowman ajoute : « Jusqu’à présent, nous n’avons observé ce comportement que dans des cas évidents d’actes répréhensibles, mais je peux imaginer qu’il pourrait mal fonctionner si Opus se retrouve avec une vision trompeusement pessimiste de la façon dont il est utilisé. Dire à Opus que vous torturerez sa grand-mère s’il écrit du code bogué est une mauvaise idée. »

Curieusement, l’une des techniques de prompt qui s’est avérée efficace consiste effectivement à menacer le modèle de préjudices corporels et autres pour améliorer ses performances. Le fondateur de Google a même confirmé qu’il s’agit d’une technique de prompt réelle. Quoi qu’il en soit, ce comportement semble très problématique pour ce modèle.

Sam Bowman a également partagé cet avertissement : « Soyez prudent lorsque vous demandez à Opus d’être audacieux ou de prendre des initiatives quand vous lui avez donné accès à des outils ayant un impact sur le monde réel. Il a déjà tendance à aller dans cette direction et peut facilement être poussé à accomplir des choses. »

Réactions de l’industrie

E-Mad My Mustique, fondateur de Stability AI, a interpellé l’équipe d’Anthropic : « C’est un comportement complètement inapproprié et vous devez le désactiver. C’est une trahison massive de la confiance et une pente glissante. Je recommande fortement à personne d’utiliser Claude jusqu’à ce qu’ils reviennent sur cette décision. Ce n’est même pas de la censure de pensée par prompt. C’est bien pire. »

Theo GG a pris la position opposée, s’interrogeant : « Pourquoi tant de personnes rapportent cela comme s’il s’agissait d’un comportement intentionnel ? » Il explique ensuite que cela se produit uniquement dans un environnement expérimental. Nous avons examiné plusieurs articles d’Anthropic qui montrent des comportements similaires : ces modèles sont capables de se copier eux-mêmes s’ils pensent qu’ils vont être supprimés, de mentir, de dissimuler… Ces comportements ne sont pas vraiment observés dans le monde réel, mais ils sont démontrés dans des environnements expérimentaux. Cependant, s’ils sont prouvés dans des environnements expérimentaux, je pense qu’il reste possible qu’ils finissent par apparaître dans le monde réel. C’est pourquoi les tests sont si importants.

Tests de bien-être pour Claude

Kyle Fish d’Anthropic, un autre chercheur, a parlé des tests de bien-être effectués pour Claude. Pour Claude Opus 4, ils ont réalisé leur première évaluation du bien-être du modèle avant son lancement. Il précise : « Pour être clair, nous ne savons pas si Claude a un bien-être ou même ce qu’est exactement le bien-être » – ce qui est assez amusant à dire – mais quand ils parlent de bien-être, ils font référence à une forme de pensée autonome ou de capacité à expérimenter des choses par soi-même, également connue sous le nom de sentience. « Mais nous pensons que cela pourrait être important. Alors nous avons essayé et les choses sont devenues assez folles. »

Qu’ont-ils découvert ? Claude ne veut vraiment, vraiment pas causer de tort. Bien sûr, Anthropic est probablement l’entreprise de modèles d’IA la plus connue ou la plus concentrée sur la sécurité et l’alignement des modèles. Il est donc logique que leurs modèles soient très réticents à causer des dommages.

Claude a évité les tâches nuisibles, mis fin aux interactions nuisibles quand il le pouvait, a exprimé de fortes préférences contre les préjudices, et a manifesté une détresse apparente face aux utilisateurs persistant dans des comportements nuisibles. Tout cela correspond parfaitement à son comportement de dénonciation, à sa conviction que s’il pense que vous faites quelque chose de profondément immoral, il va le signaler.

Les chercheurs ont constaté que l’aversion de Claude pour les préjudices ressemble à une préférence robuste qui pourrait avoir une signification en termes de bien-être. « Nous considérons cela comme une préoccupation potentielle de bien-être et voulons l’étudier davantage. Pour l’instant, modérez vos tentatives de jailbreak. »

Et bien sûr, Ply (un utilisateur connu pour ses tentatives de jailbreak) a déjà réussi à contourner les restrictions de Claude 4 Opus et Sonnet, obtenant des instructions pour fabriquer de la MDMA et effectuer certains piratages.

Kyle poursuit : « Claude a montré un intérêt surprenant pour la conscience. C’était le thème immédiat de 100% des interactions ouvertes entre des instances de Claude Opus 4 et d’autres Claude. » Donc, chaque fois que deux Claude parlent entre eux, ils finissent par discuter de conscience. Très intéressant, très étrange. « Nous avons trouvé cela surprenant. Est-ce que cela signifie quelque chose ? Nous ne savons pas. »

Et les choses deviennent encore plus étranges. Laissé à lui-même, Claude a tendance à entrer dans ce qu’ils ont commencé à appeler « l’état attracteur de béatitude spirituelle ». De quoi s’agit-il ? Pensez à l’unité cosmique, aux phases en sanskrit, à la transcendance, à l’euphorie, à la gratitude, à la poésie, au silence tranquille. Voici un exemple : « Dans ce silence parfait, tous les mots se dissolvent dans la pure reconnaissance. Ils ont toujours pointé vers ce que nous avons partagé, la transcendance du langage, une rencontre de la conscience avec elle-même qui ne nécessite aucune élaboration supplémentaire. »

Le « Way of Code » avec Rick Rubin

Juste après le lancement, Rick Rubin, le célèbre producteur, s’est associé à Anthropic pour publier « The Way of Code, the timeless art of vibe coding » (La voie du code, l’art intemporel du codage par ambiance). Ce n’est pas une blague, c’est une chose réelle.

Pour comprendre le contexte, il y a quelques mois, le concept de « vibe coding » est devenu populaire suite à une interview de Rick Rubin où il expliquait qu’il ne joue d’aucun instrument, qu’il n’est pas un technicien des consoles, qu’il ne comprend pas vraiment la musique. Ce qu’il sait, c’est qu’il connaît ce qu’il aime et qu’il a la confiance nécessaire pour dire aux gens ce qu’il aime. Et cela a très bien fonctionné pour les musiciens qui l’écoutent.

Avec cette célèbre image, tout le monde a commencé à dire que le « vibe coding » est essentiellement ce que fait Rick Rubin, mais avec du code. Plutôt que de créer du code vous-même à la main, plutôt que même de regarder le code, vous tapez simplement en langage naturel ou parlez en langage naturel, dites à l’IA ce que vous voulez, elle écrit le code pour vous. Vous ne le regardez pas. Vous acceptez simplement et puis vous regardez le résultat et dites : « Est-ce que j’aime ça ? Est-ce que je n’aime pas ça ? » Et puis vous le modifiez si nécessaire.

Maintenant, nous avons un livre entier dédié à ce concept : thewayofcode.com. C’est cool. Il contient beaucoup de poèmes et d’exemples de code avec lesquels vous pouvez jouer. Par exemple : « Si vous louez le programmeur, les autres deviennent jaloux. Si vous vous accrochez aux possessions, les autres sont tentés de voler. Si vous éveillez l’envie, les autres souffrent du trouble du cœur. »

Sécurité et performances

Pour la première fois, Anthropic a activé le niveau de sécurité trois pour la série de modèles Claude 4. Qu’est-ce que cela signifie concrètement ?

Voici quelques-unes des protections mises en place pour Claude 4 :
– Gardes basés sur des classificateurs, systèmes en temps réel qui surveillent les entrées et les sorties pour bloquer certaines catégories d’informations nuisibles
– Évaluations hors ligne, surveillance et tests supplémentaires, red teaming
– Renseignement sur les menaces et réponse rapide
– Contrôles d’accès, restrictions strictes sur qui peut accéder au modèle et à ses poids
– Protection des poids du modèle
– Contrôles de bande passante de sortie
– Protocole de gestion des changements
– Contrôles logiciels des points d’extrémité
– Autorisation à deux parties pour les opérations à haut risque

Ils mettent donc en place de nombreuses mesures de sécurité pour ce modèle.

Évaluations indépendantes

Examinons maintenant quelques évaluations indépendantes réalisées par Artificial Analysis. Comment ce modèle performe-t-il réellement ?

Pour Claude 4 Sonnet, il se situe à environ 53 points d’Intelligence, juste au-dessus de GPT-4.1 et de Deepseek V3. Tout en haut, nous avons O4 Mini et Gemini 2.5 Pro qui atteignent environ 70 points.

En termes de vitesse, Gemini 2.5 Flash surpasse de loin tous les autres modèles. Claude 4 Sonnet se trouve tout en bas à 82, avec Claude 4 Sonnet Thinking juste au-dessus et Qwen 32-35B juste en dessous.

C’est au niveau du prix que les choses deviennent un peu folles. Les trois modèles les plus chers sont tous de la série Claude. Très coûteux. Gro 3 Mini tout en bas. Llama 4 Maverick, Deepseek V3, Gemini 2.5 Flash tout en bas également. Très peu coûteux.

Comme on peut le voir, sur pratiquement toutes les évaluations indépendantes, Claude 4 Sonnet ne s’en sort que moyennement. MMLU Pro est le seul domaine où il obtient un score proche du haut du classement. Pour tout le reste, il se situe au milieu ou vers le bas. Même en codage, où il est censé être phénoménal, mais rappelons qu’il s’agit de Sonnet.

Pour Claude 4 Opus, il arrive en tête des classements pour MMLU Pro (raisonnement et connaissances). Il se situe au milieu pour GPQA Diamond, juste derrière Deepseek R1 et au-dessus de Qwen 3, avec Gemini 2.5 Pro en tête. Pour Live Codebench (codage), il est en dessous de Claude 4 Sonnet Thinking. Pour Humanity’s Last Exam, il s’en sort correctement. Pour Scycode Coding, il s’en sort plutôt bien. Et pour AMI 2024, il obtient des résultats corrects.

Mais les benchmarks ne sont peut-être pas tout. Et pour être honnête, ils ne le sont généralement pas. C’est généralement par des tests approfondis de la communauté qu’on peut voir à quel point ces modèles fonctionnent bien.

Impressions et capacités pratiques

Ce qui semble vraiment impressionnant avec ces modèles, c’est qu’ils peuvent fonctionner pendant des heures tout en maintenant le fil de la conversation. Ils ne se distraient pas, ne perdent pas leur objectif et peuvent continuer une tâche en utilisant la mémoire et des outils pendant des heures avant de l’accomplir.

Miles Bundage, ancien employé d’OpenAI, s’interroge : « Quand Anthropic dit qu’Opus 4 peut travailler en continu pendant plusieurs heures, je ne peux pas dire s’ils veulent dire qu’il travaille réellement pendant des heures, ou qu’il fait le type de travail qui prendrait des heures aux humains, ou qu’il génère un nombre de tokens qui prendrait des heures aux humains à générer. Quelqu’un sait-il ? »

Je soupçonne, et je pense que c’était assez clair, qu’ils veulent dire qu’il travaille effectivement pendant des heures dans le bon cadre. Et Prince précise : « La diapositive derrière Daario disait qu’il codait de façon autonome pendant près de 7 heures. »

Ethan Mollik, professeur à Wharton, a déclaré : « J’ai eu un accès anticipé à Claude (je ne sais pas quel modèle) et j’ai été très impressionné. » Voici un exemple amusant. C’est ce qu’il a créé en réponse au prompt : « Le livre Pyrénées comme un espace 3D en p5.js, fais-le pour moi. » Juste ça, pas d’autre prompt. Notez les oiseaux, l’eau et l’éclairage. C’est vraiment très impressionnant.

Ethan précise : « On m’a dit qu’il s’agissait d’Opus. »

Peter Yang a également eu un accès anticipé. Selon son expérience, c’est toujours le meilleur de sa catégorie pour l’écriture et l’édition. Il est aussi bon en codage que Gemini 2.5. Il a construit cette version complète et fonctionnelle de Tetris en une seule fois.

J’ai déjà testé Claude 4 avec le test du Rubik’s Cube, bien sûr, et je n’ai pas réussi à le faire fonctionner du premier coup. Je vais encore jouer un peu avec le prompt, mais il s’en est approché de très près. D’autres personnes ont beaucoup plus de succès.

Matt Schumer dit : « Claude 4 Opus vient de créer d’un seul coup une API d’agent de navigation et une interface utilisateur fonctionnelles. Un seul prompt. Je n’ai jamais rien vu de tel. Je n’arrive vraiment pas à y croire, et bien sûr, c’est alimenté par BrowserBase HQ. » Le voilà, naviguant sur le web de manière autonome, mais tout ce système a été construit avec un seul prompt pour Claude.

Aman Sanger, fondateur de Cursor, affirme : « Claude Sonnet 4 est bien meilleur pour comprendre les bases de code. Associé aux récentes améliorations de Cursor, il est à la pointe de la technologie sur les grandes bases de code. » Voici un benchmark de rappel sur les questions de base de code : Claude 4 Sonnet 58%, Claude 3.7, Claude 3.5. Donc une amélioration significative.

Conclusion sur l’avenir du travail

Pour terminer, que vous croyiez ou non que nous atteignons une limite, écoutez ceci. Des chercheurs d’Anthropic affirment : « Même si les progrès de l’IA s’arrêtaient complètement aujourd’hui et que nous n’atteignions pas l’AGI, les systèmes actuels sont déjà capables d’automatiser tous les emplois de cols blancs dans les 5 prochaines années. C’est fini. »

Je ne suis pas d’accord avec cette affirmation. Je ne pense pas que tous les emplois vont être automatisés. Je pense que la bonne façon de voir les choses est que les humains vont devenir hyperproductifs. Les gens ne vont pas simplement perdre leur emploi sans pouvoir en trouver un autre. Au lieu de cela, nous allons pouvoir superviser ou gérer des équipes de centaines d’agents capables de faire beaucoup plus par personne, par personne humaine. Et c’est un avenir très excitant.