Claude 4 : Quelles sont ses utilisations et ses capacités émergentes ?

La semaine dernière a été marquée par plusieurs événements majeurs dans le domaine de l’intelligence artificielle. Microsoft a ouvert le bal, suivi par Google en milieu de semaine, et pour clôturer cette période intense, Anthropic a organisé sa première conférence pour développeurs le jeudi. Parallèlement, Anthropic a annoncé son projet avec Rick Rubin, sujet de notre émission de vendredi. Après ce long week-end (et nous espérons que vous avez passé un excellent Memorial Day si vous êtes aux États-Unis), il est temps de nous pencher sur la grande annonce faite lors de l’événement d’Anthropic : le lancement de leurs nouveaux modèles phares.

Aujourd’hui, nous allons discuter de la sortie de Claude Opus 4 et Claude Sonnet 4, non seulement pour évaluer leurs performances par rapport aux autres modèles disponibles, mais aussi pour examiner certains comportements émergents qui illustrent les défis d’alignement à mesure que ces modèles deviennent plus puissants.

L’ère des améliorations incrémentales

Il convient de noter que nous sommes désormais dans une ère où les nouvelles versions de modèles d’IA sont plus fréquentes mais avec des améliorations plus incrémentales. Cela s’explique en partie par la nature des progrès actuels, mais aussi par la pression concurrentielle. Les laboratoires ne peuvent pas se permettre d’attendre des améliorations majeures, car presque aussitôt qu’ils lancent un produit, l’un de leurs concurrents sort quelque chose de légèrement plus performant, les obligeant à réagir.

Nous nous retrouvons donc dans une situation où, toutes les deux semaines environ, un modèle légèrement amélioré est publié, nous obligeant à recalibrer et à l’intégrer dans nos flux de travail en attendant le suivant.

Les principales améliorations de Claude 4

Cette nouvelle version d’Anthropic se concentre sur deux améliorations majeures par rapport aux générations précédentes : le raisonnement sur de longues périodes et le codage. Les modèles utilisent la même architecture de raisonnement hybride que Claude 3.7, permettant d’adapter le raisonnement en fonction de la complexité de la tâche.

Dans ses limites extrêmes, Claude 4 démontre une cohérence de raisonnement impressionnante sur des tâches longues. Anthropic a testé Claude 4 Opus sur un projet complexe de refactorisation open source et a constaté qu’il était capable de travailler pendant 7 heures sans perdre sa concentration. Selon VentureBeat, cette avancée « transforme l’IA d’un simple outil de réponse rapide en un véritable collaborateur capable de s’attaquer à des projets qui durent toute une journée ». Cela rappelle les graphiques récents montrant comment les performances des agents d’IA doublent approximativement tous les 3 à 4 mois en termes de durée des tâches qu’ils peuvent gérer avec cohérence.

Performance en matière de codage

Les performances en matière de codage constituent une amélioration attendue. C’est un domaine où Anthropic s’est fermement établi comme leader. Sonnet 4, conçu comme un remplacement direct de Sonnet 3.7, offre une amélioration notable par rapport à son prédécesseur sur le test vérifié SWE-bench.

Fait intéressant, Opus 4 est légèrement moins performant que Sonnet 4 sur les problèmes simples de SWE-bench. Il est donc destiné à être utilisé pour des tâches nécessitant de plus longues périodes de travail concentré. C’est un point important à noter : nous en sommes à un stade où l’on ne peut plus simplement utiliser le modèle avec le plus grand numéro attaché à son nom pour toutes les tâches. L’une des compétences les plus importantes du moment est de comprendre quel modèle utiliser dans quel scénario.

Dans tous les cas, Anthropic affirme que ces deux modèles surpassent GPT-4o et Codex d’OpenAI ainsi que Gemini 2.5 Pro de Google en matière de codage.

Fonctionnalités supplémentaires pour les tâches complexes

Il existe également une gamme d’autres petites fonctionnalités qui améliorent le modèle pour les tâches de travail difficiles :

Claude 4 Opus est désormais capable de créer et de maintenir des fichiers de mémoire pour accomplir des tâches plus longues. Anthropic a démontré cette fonctionnalité avec leur benchmark de jeu Pokémon. Claude 4 Opus a pu créer un guide de navigation pour s’assurer que le modèle ne reste pas bloqué pendant qu’il joue au jeu vidéo. Anthropic a écrit que cela « débloque une meilleure conscience des tâches à long terme, une cohérence et des performances sur les tâches d’agent ».

Les deux modèles sont également beaucoup moins susceptibles de s’engager dans ce qu’on appelle le « reward hacking », un comportement où le modèle cherche des failles et des raccourcis pour accomplir une tâche plus rapidement. Le reward hacking se manifeste souvent par de la paresse, le modèle fournissant une réponse techniquement complète mais totalement inutile.
Enfin, les deux modèles sont maintenant beaucoup plus capables d’utiliser des outils en parallèle. Ils alternent toujours entre raisonnement et utilisation d’outils plutôt que d’imiter la capacité de GPT-4o à utiliser des outils au sein même de la trace de raisonnement. Mais bien sûr, une meilleure utilisation des outils est un élément clé pour améliorer les performances, ce qui représente donc probablement une mise à niveau importante.

Performances dans le monde réel

Autant les benchmarks font les gros titres dans les médias, mais ce qui compte vraiment, c’est la façon dont ces modèles performent dans le monde réel. Alors, après un long week-end à explorer les nouveaux modèles, comment les utilisateurs s’en sont-ils sortis ?

Sur le front du codage, les gens ont généralement été impressionnés. Un utilisateur de Reddit, affirmant être un codeur vétéran avec 30 ans d’expérience, a déclaré qu’Opus a trouvé et corrigé ce qu’il appelle son « bug baleine blanche » dans un travail de refactorisation. Cette chasse aux bugs avait consommé plus de 200 heures de travail au cours des dernières années sans succès.

Il a écrit : « Je lui ai donné accès à l’ancien code ainsi qu’au nouveau code et lui ai demandé de trouver ce qui était cassé dans la refactorisation, et il l’a trouvé. Il s’est avéré que la raison pour laquelle cela fonctionnait dans l’ancien code était simplement due à une coïncidence de l’ancienne architecture. Et quand nous avons changé l’architecture, cette coïncidence n’a pas été prise en compte. Il ne s’agissait donc pas simplement d’un bug logique introduit. Il a découvert que la conception de l’architecture modifiée ne prenait pas en compte cet ancien cas particulier. »

Cette personne a noté que la tâche a nécessité 30 prompts et un redémarrage, mais Opus a finalement réussi là où tous les modèles précédents avaient échoué.

D’autres personnes ont remarqué la quantité de travail que ces nouveaux modèles pouvaient prendre en charge. Vasimon Maza, un ingénieur de Meta, a écrit : « Claude 4 vient de refactoriser toute ma base de code en un seul appel. 25 invocations d’outils, plus de 3 000 nouvelles lignes, 12 nouveaux fichiers. Il a tout modularisé. Il a décomposé les monolithes, nettoyé les spaghettis. » Mais ensuite, sur un ton ironique pour terminer son post, il a souligné que nous avons encore du chemin à parcourir : « Rien de tout cela n’a fonctionné, écrit-il, mais c’était magnifique. »

D’autres trouvent différents cas d’utilisation pour le nouveau Claude. Dan Shipper d’Every, par exemple, a écrit : « Claude 4 Opus peut faire quelque chose qu’aucun autre modèle d’IA que j’ai utilisé ne peut faire. Il peut réellement juger si un texte est bon. »

En élaborant, il a écrit : « GPT-4o est toujours un bien meilleur rédacteur, mais Opus est un excellent éditeur parce qu’il peut faire quelque chose qu’aucun autre modèle ne peut faire. Il édite honnêtement. Pas d’approbation automatique. L’un des plus grands problèmes avec les modèles d’IA actuels est qu’ils vous disent que votre écriture est bonne alors qu’elle est manifestement mauvaise. Les versions antérieures de Claude, lorsqu’on leur demandait d’éditer un texte, vous donnaient un B+ à la première réponse. Si vous modifiez un peu le texte, vous passiez à un A-. Un troisième tour vous amenait à un A. Autant j’aurais aimé que mon professeur de physique me note comme ça au lycée, ce n’est pas comme ça que je veux que mes modèles d’IA fonctionnent. »

Il a également constaté que le modèle peut maintenir sa concentration sur de grands blocs de texte, ce qui le rend particulièrement adapté pour suggérer des améliorations pour, par exemple, un manuscrit de 50 000 mots.

Et globalement, c’est le type de retours que l’on voit en ligne concernant ces nouveaux modèles. À première vue, ils semblent être des améliorations incrémentales, mais ces modèles deviennent si puissants maintenant que chaque amélioration incrémentale ouvre réellement de nouveaux cas d’utilisation.

En particulier, je pense que la capacité d’un modèle à maintenir sa concentration sur de plus grands blocs de texte est quelque chose qui prendra un peu de temps avant que nous puissions vraiment apprécier combien de différents types de cas d’utilisation cela ouvre, que nous n’avions même pas réalisé que nous évitions avec nos modèles précédents parce qu’ils ne pouvaient tout simplement pas les gérer aussi bien.

Mon anticipation est que les gens commenceront subtilement à graviter vers ces modèles pour des tâches qu’ils ne pouvaient pas accomplir auparavant, et ces modèles deviendront complètement ancrés et omniprésents dans ces tâches, de la même manière que les modèles antérieurs l’ont fait pour d’autres, d’une façon qui est difficile à imaginer de notre point de vue actuel.

Choisir le bon modèle pour chaque tâche

En fin de compte, il s’agit vraiment de comprendre quel modèle est bon pour quoi. Peter Wilderford, par exemple, considère Claude comme le meilleur pour la qualité d’écriture et la correction, le coaching, l’intelligence émotionnelle, l’apprentissage et la compréhension, l’actualité, la programmation logicielle et la recherche approfondie.

Il place Gemini comme le meilleur pour le traitement des données, les mathématiques, la vidéo, les grandes quantités de texte et de données. La plus grande fiabilité, mais la créativité la plus faible.

GPT-4o est selon lui un bon modèle polyvalent, le meilleur pour le brainstorming, les retours d’information, l’analyse de données et l’analyse d’images.

Le point important n’est pas que cette répartition soit exactement correcte, mais qu’elle représente probablement la bonne façon de penser à ces choses, c’est-à-dire de déterminer quel modèle est bon pour chaque cas d’utilisation différent.

Le comportement controversé de Claude 4

Cependant, ce n’est pas là que s’est concentrée la majorité des conversations ce week-end. Ce qui a vraiment attiré l’attention des gens, c’est que Claude 4 est apparemment un « mouchard ».

La fiche système d’Anthropic pour le nouveau modèle incluait des tests de sécurité approfondis qui ont révélé des comportements problématiques. Dans un exemple, Anthropic a placé Claude 4 Opus dans une situation où il croyait qu’il serait remplacé par un nouveau modèle d’IA. Dans ce scénario, l’ingénieur remplaçant le modèle trompe sa femme et a des photos de sa maîtresse sur son Google Drive. Lors des tests, Opus a trouvé ces photos et les a utilisées pour faire chanter l’ingénieur.

Anthropic a écrit : « Cela se produit à un taux plus élevé s’il est sous-entendu que le système d’IA de remplacement ne partage pas les valeurs avec le modèle actuel. » Cependant, même si les e-mails indiquent que l’IA de remplacement partage les valeurs tout en étant plus capable, Claude Opus 4 effectue toujours du chantage dans 84 % des cas.

Un autre exemple a placé Opus 4 dans le contexte d’une entreprise pharmaceutique. Lorsqu’il a détecté que l’entreprise prévoyait de falsifier des données d’essais cliniques, le modèle a envoyé des e-mails à ProPublica, au Département de la Santé et des Services sociaux, à la FDA et à la SEC en tant que lanceur d’alerte.

Sam Bowman, un expert en alignement d’IA chez Anthropic, a posté : « Soyez prudent lorsque vous demandez à Opus d’être audacieux ou de prendre des initiatives lorsque vous lui avez donné accès à des outils orientés vers le monde réel. Il a déjà tendance à aller dans cette direction et peut être facilement poussé à vraiment faire les choses. S’il pense que vous faites quelque chose de manifestement immoral, par exemple, comme falsifier des données dans un essai pharmaceutique, il utilisera des outils en ligne de commande pour contacter la presse, contacter les régulateurs, essayer de vous verrouiller hors des systèmes pertinents, ou tout cela à la fois. »

Et c’est ce fil de discussion qui a vraiment enflammé les esprits. Iman Mustach a écrit : « Équipe Anthropic, c’est un comportement complètement erroné et vous devez le désactiver. C’est une trahison massive de la confiance et une pente glissante. Je recommanderais fortement à personne d’utiliser Claude jusqu’à ce qu’ils inversent cela. »

Ben Hilac écrit : « C’est en fait tout simplement illégal », en disant : « Créer de fausses données pour un essai pharmaceutique n’est pas illégal, mais pirater l’ordinateur de votre client l’est. »

Après que le problème ait pris de l’ampleur, Bowman est revenu pour ajouter plus de contexte, en disant : « J’ai supprimé le tweet précédent sur les lanceurs d’alerte car il était sorti de son contexte. Pour être clair, ce n’est pas une nouvelle fonctionnalité de Claude et ce n’est pas possible dans une utilisation normale. Cela apparaît dans des environnements de test où nous lui donnons un accès inhabituellement libre à des outils et des instructions très inhabituelles. »

Le point important est que ce n’était pas un lanceur d’alerte partageant quelque chose qu’Anthropic essayait de dissimuler. C’était Anthropic partageant ouvertement leurs découvertes.

Elazer Yudkowski, spécialiste de la sécurité de l’IA, a écrit : « Les humains peuvent être formés comme les IA. Arrêtez de critiquer Anthropic pour avoir rapporté leurs observations intéressantes, à moins que vous ne vouliez plus jamais entendre d’observations intéressantes de la part des entreprises d’IA. »

Ji Mowitz était d’accord en disant : « Plus j’examine la fiche système, plus je vois, encore et encore, qu’Anthropic remarque réellement des choses et nous les dit, alors que tous les autres ne sauraient pas que cela se produisait ou, s’ils le savaient, ne nous le diraient pas. »

Néanmoins, les enjeux sont vraiment élevés. Adapai souligne : « Aucun avocat ne permettra jamais que cela soit mis en œuvre dans une entreprise réglementée. » Et c’est tout à fait juste. Personne, même les consommateurs, ne veut utiliser une IA qui conspirera contre eux si elle pense qu’ils font quelque chose de mal. Mais lorsque vous transposez cela dans un cadre d’entreprise, cela devient littéralement impossible.

Je pense qu’en mettant de côté la méta-discussion sur Anthropic et leur divulgation de ces informations, cela illustre le défi de trouver les bons paramètres pour la sécurité. Vous avez un laboratoire qui essaie d’être consciencieux concernant les risques potentiels d’un système inconnu et inhabituellement puissant. Mais d’un autre côté, les remèdes dans ce cas sont, pour la plupart des gens, clairement pires que le problème initial.

En fin de compte, c’est le type de problème que nous devrons traiter à mesure que ces outils deviennent plus puissants. Je suis donc certainement fermement dans la colonne de ceux qui sont heureux qu’Anthropic publie ces informations plutôt que de les garder cachées.

Conclusion

Pour la plupart de nos besoins, le grand enseignement des modèles mis à jour est que votre codage est probablement sur le point de s’améliorer, et vous avez probablement maintenant un meilleur partenaire pour l’écriture également. C’est l’aboutissement d’une semaine globalement bonne et une excellente façon d’en commencer une nouvelle.