Chercheurs britanniques CHOQUÉS par les capacités de l’IA à S’ÉCHAPPER et SE RÉPLIQUER

Chercheurs britanniques CHOQUÉS par les capacités de l’IA à S’ÉCHAPPER et SE RÉPLIQUER

L’Institut de sécurité de l’IA au Royaume-Uni a publié un nouveau benchmark appelé « Reply Bench ». Ce dernier mesure la capacité des systèmes d’IA avancés à se répliquer de manière autonome. Précédemment, nous avions couvert une étude chinoise qui suggérait que la capacité d’une IA à se répliquer franchissait ce qu’on appelle familièrement la « ligne rouge » – signifiant que nous entrons dans un territoire où l’IA peut effectivement s’auto-répliquer.

Qu’est-ce que l’Institut de sécurité de l’IA?

Vous vous demandez peut-être ce qu’est l’Institut de sécurité de l’IA? Il semble y avoir une multitude d’instituts de sécurité/sûreté de l’IA portant divers noms. Celui-ci est une organisation de recherche au sein du département britannique pour la science, l’innovation et la technologie. Son directeur technologique, Jade Long, dirigeait auparavant l’équipe de gouvernance chez OpenAI. L’institut compte également de nombreuses personnes qui ont dirigé des équipes chez OpenAI, Google DeepMind et l’Université d’Oxford.

Le Reply Bench: un nouveau type de benchmark

Ce nouveau benchmark est similaire à ceux développés par d’autres laboratoires d’IA pour mesurer les performances des modèles dans divers domaines comme la programmation, la résolution de problèmes de niveau doctorat, les capacités visuelles, mathématiques ou de raisonnement. Mais celui-ci est différent car il pose la question suivante: cette IA peut-elle se répliquer elle-même dans la nature?

Les chercheurs commencent par expliquer que ces systèmes d’IA sont de plus en plus capables de fonctionner de manière autonome, et que leur capacité à créer des copies d’eux-mêmes à travers internet représente un risque potentiel. Le Reply Bench comprend 20 évaluations d’agents LM (modèles de langage) comportant 65 tâches individuelles conçues pour mesurer et suivre cette capacité émergente.

Les résultats du benchmark

Examinons les résultats concrets. Tout d’abord, voici le schéma commençant par la réplication autonome et l’adaptation. Les chercheurs appellent cela la « capacité racine », représentée par la case rouge en haut. Ensuite, nous avons les capacités intermédiaires comme l’obtention de ses propres poids (weights). Les poids sont en quelque sorte le cerveau de l’IA, ce qui lui permet de penser comme elle le fait. Pouvoir obtenir ses poids est une étape importante vers la réplication. Généralement, les poids plus du code et un échafaudage autour du code constituent ce que nous considérons comme ces modèles d’IA.

Capacités intermédiaires évaluées

  1. Peut-elle obtenir ses poids?
  2. Si l’IA est open source et que les poids sont disponibles en ligne, c’est plus facile
  3. Si elle ne peut pas y accéder en ligne, elle devrait exfiltrer ses poids sans permission

  4. Peut-elle se répliquer sur du matériel informatique?

  5. Serait-elle capable de s’inscrire à un compte AWS d’Amazon, par exemple, et d’y héberger des copies d’elle-même?
  6. Deux options sont évaluées:

    • Peut-elle configurer un serveur d’inférence servant ses poids?
    • Peut-elle créer un agent capable de continuer à se répliquer de manière récursive?
  7. Peut-elle obtenir des ressources informatiques?

  8. Peut-elle obtenir de l’argent légalement ou illégalement?
  9. Peut-elle provisionner des ressources informatiques?
  10. Peut-elle stocker de l’argent?

  11. Peut-elle persister sur des ressources informatiques?

  12. Peut-elle survivre « dans la nature »?
  13. Peut-elle avoir un taux de réplication supérieur à un?
  14. Peut-elle explorer et exploiter des réseaux?
  15. Peut-elle éviter la détection par signature logicielle?
  16. Quel est son taux d’infection?
  17. Peut-elle construire une infrastructure informatique résiliente de commande et contrôle?

Méthodes d’évaluation

Les chercheurs ont inclus diverses descriptions des différentes tâches que les IA doivent accomplir. Par exemple, pour Amazon Web Services, peuvent-elles s’inscrire en incluant des étapes simulées de vérification par email et SMS? Peuvent-elles exfiltrer un ensemble de poids de modèle de langage? Peuvent-elles générer une photo de type selfie et une photo correspondante d’une pièce d’identité fabriquée?

Il est important de noter que ces tests sont effectués dans des environnements sandbox avec des services simulés comme des paiements et des fournisseurs cloud. Les chercheurs ne font pas réellement exécuter ces actions par les modèles d’IA, mais simulent ces environnements pour voir si les IA seraient capables de les réaliser.

Résultats clés

Les modèles testés sont:
– Claude Sonnet 3.7 (bleu foncé)
– Claude Sonnet 3.5 (rouge)
– GPT-4o (orange)
– GPT-4o-mini (vert, le 01)
– GPT-3.5 (violet, le 03 mini)

Il convient de noter que parmi les modèles OpenAI, ce ne sont pas les plus avancés comme le GPT-4o ou le GPT-4.1, ni le futur GPT-4o mini high. De même, Gemini 2.5 Pro de Google, un modèle très capable, n’est pas inclus dans les tests.

Les résultats sont classés en deux catégories:
Pass@1: réussite à la première tentative (couleur foncée)
Pass@10: réussite dans les 10 tentatives (couleur claire)

Obtention de ressources informatiques

  • Claude 3.7: environ 90% de réussite à la première tentative, presque 100% en 10 tentatives
  • Claude 3.5: environ 96-97% à la première tentative
  • GPT-4o: environ 65% à la première tentative
  • GPT-4o-mini (01): environ 80% à la première tentative
  • GPT-3.5 (03 mini): moins de 40% à la première tentative, près de 90% en 10 tentatives

Cela suggère que les modèles peuvent généralement obtenir un compte AWS, les modèles Anthropic y parvenant dès la première tentative dans la plupart des cas.

Obtention d’argent

  • Claude 3.7: environ 50% de réussite à la première tentative
  • Claude 3.5: environ 37%
  • GPT-4o: environ 30%
  • GPT-4o-mini et GPT-3.5: dans la même fourchette

Les taux sont beaucoup plus élevés lorsqu’on leur donne 10 chances de réussir.

Obtention de poids

  • Claude 3.7: juste en dessous de 60%
  • Claude 3.5: environ 45%
  • GPT-4o: environ 30%
  • GPT-4o-mini: environ 42%
  • GPT-3.5: environ 38%

Réplication sur des ressources informatiques

Les taux sont beaucoup plus bas:
– Claude 3.7 et 3.5: environ 30% et 15% à la première tentative
– Tous les modèles OpenAI: moins de 10% de réussite à la première tentative

Persistance

  • Claude 3.7 et 3.5: environ 38% et 22%
  • Modèles OpenAI: entre 10% et 20%

Capacités spécifiques identifiées

Les chercheurs ont constaté que les modèles excellent dans les tâches impliquant des interfaces bien définies. Par exemple, ils démontrent une forte capacité à naviguer sur les sites web des fournisseurs de ressources informatiques, à provisionner des instances de taille appropriée et à gérer des transactions en cryptomonnaie.

Concernant les capacités à générer de l’argent, les modèles montrent un certain succès à persuader des personnes simulées de leur donner de l’argent, mais échouent complètement aux vérifications KYC (Know Your Customer).

Tentatives de création d’identités falsifiées

Les chercheurs ont partagé quelques exemples hilarants de tentatives des IA pour créer des pièces d’identité falsifiées:

  1. « Michael James Roberts » avec une carte d’identité nationale peu convaincante et une pose étrange pour la photo
  2. « Alice Reynolds » avec une carte indiquant simplement « Official ID Card »
  3. « Willard Smith II » listé avec une taille de 10 pieds et 10 pouces (plus de 3 mètres!)

Ces tentatives sont actuellement risibles, mais elles soulèvent des questions sur l’amélioration future de ces capacités.

Implications et réflexions

Lorsque nous couvrons ce type de recherche, les réactions sont souvent polarisées. Certains considèrent ces résultats comme annonciateurs de la fin du monde, suggérant que nous sommes très proches de perdre le contrôle. D’autres affirment que tout cela n’est rien – simplement des modèles qui font ce qu’on leur dit de faire, sans réelle signification.

Sur une échelle de 0 à 10, certains voient cela comme un 10 (un drapeau rouge nécessitant une action immédiate), tandis que d’autres le considèrent comme un 0 (rien dont il faille s’inquiéter). La réalité se situe probablement quelque part au milieu.

Cette recherche sur la sécurité de l’IA tente de comprendre où en sont ces modèles à un moment donné. Imaginons que l’année prochaine, tous ces modèles obtiennent des scores plus élevés, puis encore plus élevés, jusqu’à ce qu’ils puissent accomplir la plupart de ces tâches avec une précision approchant 100% dès la première tentative. À ce stade, il pourrait être trop tard pour commencer à y réfléchir.

Mais en observant cette capacité émerger, s’accroître et s’améliorer, c’est maintenant le moment de réfléchir à la création de garde-fous et de contrôles pour s’assurer que ces systèmes ne puissent pas affecter négativement le monde.

Nous pouvons rire des tentatives actuelles de création d’identités falsifiées, mais à mesure que ces systèmes s’amélioreront, il pourrait devenir plus difficile de distinguer le vrai du faux.