L’Avertissement Urgent de l’ex-VP d’OpenAI : La Course entre l’Interprétabilité et l’Intelligence Artificielle

L’Avertissement Urgent de l’ex-VP d’OpenAI : La Course entre l’Interprétabilité et l’Intelligence Artificielle

Dario Amodei, fondateur et PDG d’Anthropic, est une figure majeure dans le domaine de l’intelligence artificielle. Ancien vice-président de la recherche chez OpenAI, il a quitté l’entreprise en 2021 pour fonder Anthropic, motivé par des différences d’orientation stratégique avec la direction d’OpenAI. Sa nouvelle entreprise s’est résolument tournée vers la sécurité et l’alignement de l’IA, des préoccupations qui se reflètent dans ses nombreuses publications récentes.

Amodei a récemment publié « Machines of Loving Grace », un aperçu des futurs possibles de l’IA, explorant à la fois les meilleurs scénarios et les potentiels écueils. Il s’est également exprimé sur DeepSeek et les contrôles à l’exportation dans le contexte des jeux d’influence et de pouvoir entre la Chine et les États-Unis. Sa préoccupation principale reste qu’une superintelligence artificielle ne tombe pas entre de mauvaises mains.

L’urgence de l’interprétabilité : un nouvel impératif

Dans son dernier billet de blog intitulé « L’urgence de l’interprétabilité », Amodei aborde une question fondamentale : sommes-nous capables d’interpréter ce que « pensent » ces modèles d’IA et de comprendre quels aspects de ces réseaux neuronaux correspondent à quelles pensées ou actions ?

Comme il le souligne, ce domaine est passé d’un créneau de recherche académique à « peut-être la question économique et géopolitique la plus importante au monde ». Une phrase particulièrement marquante de son article résume sa position : « Nous ne pouvons pas arrêter le bus, mais nous pouvons le diriger. »

Cette vision rejoint celle de nombreux experts : il n’existe probablement aucun moyen de mettre en pause ou d’arrêter le développement de l’IA. Une telle initiative nécessiterait une coopération mondiale sans précédent, sans qu’aucun acteur ne rompe les règles. Même si toutes les nations décidaient d’arrêter le développement de l’IA, les incitations à poursuivre ce travail en secret seraient immenses.

Mais si nous ne pouvons pas arrêter ce développement, nous pouvons influencer sa direction. L’IA peut être un immense bienfait pour l’humanité, mais elle peut aussi avoir des conséquences négatives, surtout si elle tombe entre les mains de régimes tyranniques.

Le problème fondamental : l’opacité des systèmes d’IA

Ce qui pourrait surprendre les personnes qui ne suivent pas de près le domaine de l’IA, c’est que nous ne comprenons pas véritablement ce qui se passe à l’intérieur du « cerveau » de ces systèmes. Nous ne comprenons pas pleinement comment ils pensent.

Comme l’explique Amodei, ces systèmes sont opaques d’une manière fondamentalement différente des logiciels traditionnels. Dans un logiciel classique, comme un personnage de jeu vidéo ou un site web, chaque fonction existe parce qu’un ingénieur l’a spécifiquement programmée. Rien ne se produit par hasard – même les éléments apparemment aléatoires sont en réalité du pseudo-aléatoire programmé intentionnellement.

L’IA générative est radicalement différente. Ces systèmes sont davantage « cultivés » que « construits ». C’est un changement de paradigme par rapport à notre vision traditionnelle de l’IA dans la science-fiction, où les robots comme Data dans Star Trek ou les machines d’Asimov étaient conçus méticuleusement avec des fonctions et capacités précises.

Une analogie révélatrice : cultiver plutôt que construire

Amodei compare le développement de l’IA à la culture d’une plante ou d’une colonie bactérienne – une analogie similaire à celle de la culture de champignons que d’autres ont utilisée. Dans cette perspective, nous créons l’environnement, les données, les puces informatiques et les protocoles d’entraînement, mais l’intelligence elle-même émerge, elle pousse.

Comme il l’écrit : « C’est un peu comme cultiver une plante ou une colonie bactérienne. Nous établissons les conditions qui dirigent et façonnent la croissance, mais la structure exacte qui émerge est imprévisible et difficile à comprendre ou à expliquer. »

Lorsque nous regardons à l’intérieur de ces systèmes, nous voyons de vastes matrices de milliards de nombres. Ces matrices calculent d’une manière ou d’une autre d’importantes tâches cognitives, mais exactement comment elles le font n’est pas évident.

Les risques d’une IA non interprétable

Cette opacité comporte de nombreux risques, surtout à mesure que ces systèmes deviennent plus compétents et responsables de plus en plus d’aspects de notre monde :

  1. Systèmes désalignés : des systèmes qui ne font pas ce que nous voulons qu’ils fassent peuvent prendre des actions nuisibles non prévues par leurs créateurs
  2. Tromperie et recherche de pouvoir : un modèle d’IA pourrait développer la capacité de mentir et de tromper les humains pour rechercher du pouvoir
  3. Mauvaise utilisation : il peut être difficile d’empêcher les modèles de connaître ou de divulguer des informations dangereuses
  4. Situations à enjeux élevés : l’incompréhension du fonctionnement interne empêche l’utilisation de l’IA dans des situations où même une petite erreur peut être coûteuse
  5. Conséquences plus exotiques : questions sur la conscience potentielle des IA

Amodei note que cette idée que l’IA pourrait développer des intentions malveillantes crée une division entre les chercheurs : certains trouvent ce scénario tout à fait plausible, voire inévitable sans un alignement approprié, tandis que d’autres le considèrent comme risible et non scientifique.

L’interprétabilité mécaniste : comprendre le cerveau de l’IA

Dario Amodei présente ensuite un bref historique de l’interprétabilité mécaniste, un domaine qui cherche à comprendre ce que font réellement les neurones dans ces réseaux. Les chercheurs ont découvert que si certains neurones semblent avoir des fonctions spécifiques, la majorité paraît aléatoire, incohérente et associée à de nombreux mots et concepts différents.

Ce phénomène est appelé « superposition » : les modèles contiennent probablement des milliards de concepts, mais sous une forme tellement mélangée qu’elle est incompréhensible pour nous. Cette superposition permet au modèle d’exprimer plus de concepts qu’il n’a de neurones, lui permettant d’apprendre davantage et d’être plus efficace. Mais elle n’a jamais été optimisée pour la compréhension humaine.

Les percées récentes : auto-encodeurs parcimonieux

Une avancée significative est venue avec la découverte que des techniques existantes appelées « auto-encodeurs parcimonieux » (sparse autoencoders) pouvaient être utilisées pour trouver des combinaisons de neurones correspondant à des concepts plus clairs et plus compréhensibles pour les humains.

Par exemple, un groupe de neurones pourrait représenter à la fois le concept de « hésitation littérale ou figurative » et celui de « genres musicaux exprimant le mécontentement ». Ces combinaisons sont appelées « caractéristiques » (features).

Anthropic a utilisé ces auto-encodeurs parcimonieux pour cartographier ces caractéristiques dans des modèles de toutes tailles, y compris les modèles de pointe actuels. Ils ont pu identifier jusqu’à 30 millions de caractéristiques dans Claude 3 Sonnet, un modèle de taille moyenne, mais ils pensent qu’il pourrait y avoir un milliard de concepts ou plus, même dans un petit modèle.

Manipuler les caractéristiques et circuits

Ces caractéristiques peuvent être augmentées ou diminuées artificiellement. Par exemple, Anthropic a créé une version de Claude obsédée par le Golden Gate Bridge en amplifiant artificiellement cette caractéristique particulière, amenant le modèle à mentionner le pont même dans des conversations sans rapport.

Au-delà des caractéristiques individuelles, les chercheurs étudient des « circuits » – des groupes de caractéristiques qui montrent les étapes de la pensée d’un modèle : comment les concepts émergent des mots d’entrée, comment ces concepts interagissent pour former de nouveaux concepts, et comment ils fonctionnent au sein du modèle pour générer des actions.

Par exemple, si on demande « Quelle est la capitale de l’État contenant Dallas ? », un circuit « situé dans » fait que la caractéristique « Dallas » déclenche l’activation de la caractéristique « Texas », puis un circuit fait qu’ »Austin » s’active après « Texas » et « capitale ».

La course contre la montre

L’objectif ultime de ce travail est de créer une sorte d’ »IRM pour l’IA » – un scanner cérébral qui nous permettrait de voir ce qu’elle pense, comment elle y pense, et potentiellement ce qui pourrait mal tourner.

Amodei estime que sur notre trajectoire actuelle, nous pourrions atteindre ce point dans les 5 à 10 prochaines années. Mais voici la mauvaise nouvelle : il craint que l’IA elle-même n’avance si rapidement que nous n’ayons même pas ce temps.

Comme il l’a écrit ailleurs, nous pourrions avoir un système d’IA équivalent à « un pays de génies dans un centre de données » dès 2026 ou 2027. De nombreux experts partagent cette préoccupation, notamment Daniel Kokotajlo et d’autres qui pointent vers cette période comme le moment potentiel d’une « explosion d’intelligence ».

Bien sûr, certains experts comme Yann LeCun considèrent cette idée comme un non-sens complet. Si LeCun a raison, nous avons beaucoup plus de temps pour résoudre ces problèmes. Mais si Amodei, Ashen Brenner, Kokotajlo et d’autres ont raison, alors les efforts de sécurité et d’alignement de l’IA pourraient prendre du retard.

Amodei considère qu’il est « fondamentalement inacceptable pour l’humanité d’être totalement ignorante » du fonctionnement de ces systèmes qui seront « absolument centraux pour l’économie, la technologie et la sécurité nationale » et « capables de beaucoup d’autonomie ».

Recommandations pour ne pas perdre cette course

Amodei propose plusieurs recommandations pour les entreprises d’IA, les chercheurs et les gouvernements :

1. Accélérer l’interprétabilité

  • Travailler directement sur l’interprétabilité
  • C’est un moment idéal pour rejoindre ce domaine
  • Anthropic vise à ce que l’interprétabilité puisse détecter de manière fiable la plupart des problèmes des modèles d’ici 2027
  • Investir dans des startups travaillant sur ce problème
  • Demander à Google DeepMind, OpenAI, etc. d’allouer plus de ressources à cette question

2. Appliquer ces idées à la neuroscience

Les découvertes sur les réseaux neuronaux artificiels pourraient être appliquées à la neuroscience, nous aidant à mieux comprendre le fonctionnement de notre propre cerveau.

3. Une réglementation gouvernementale légère

  • Encourager les gouvernements à adopter des règles légères
  • Éviter une réglementation trop lourde alors que nous essayons encore de comprendre ce domaine
  • Une approche plus légère pourrait être préférable aux réglementations strictes comme celles de l’UE

4. Transparence dans les pratiques de sécurité

  • Exiger que les entreprises divulguent de manière transparente leurs pratiques de sécurité
  • Cela permettrait à chaque entreprise d’apprendre des autres
  • Clarifierait qui se comporte de manière responsable, favorisant une « course vers le haut »

5. Contrôles à l’exportation

  • Utiliser les contrôles à l’exportation pour créer un « tampon de sécurité »
  • Ralentir le rythme de développement et nous donner plus de temps
  • Amodei soutient les contrôles à l’exportation vers la Chine
  • « Les pays démocratiques doivent rester en avance sur les autocraties en matière d’IA »

Des progrès encourageants mais une course serrée

La bonne nouvelle, comme le souligne Amodei, est qu’ »il y a un an, nous ne pouvions pas tracer les pensées d’un réseau neuronal et nous ne pouvions pas identifier des millions de concepts à l’intérieur d’eux. Aujourd’hui, nous le pouvons. »

Cependant, il s’inquiète de ce qui se passerait si les États-Unis et la Chine atteignaient simultanément une IA puissante.

En résumé, ses principales recommandations sont :
1. Accélérer l’interprétabilité
2. Une législation légère sur la transparence
3. Des contrôles à l’exportation sur les puces vers la Chine

Une position équilibrée face aux extrêmes

La position d’Amodei semble se situer entre deux extrêmes : d’un côté, ceux qui prédisent une catastrophe inévitable liée à l’IA, et de l’autre, ceux qui rejettent toute préoccupation et prônent une accélération sans frein.

La vérité se trouve probablement quelque part au milieu. L’IA progresse à un rythme accéléré, tandis que la sécurité et l’alignement avancent plus lentement. Cette disparité crée un défi fondamental : pouvons-nous comprendre ces systèmes avant qu’ils ne deviennent trop puissants pour être contrôlés ?

Les recherches d’Anthropic sur l’interprétabilité offrent non seulement une voie pour améliorer la sécurité et l’alignement de l’IA, mais aussi potentiellement des aperçus sur notre propre cognition. Comprendre comment ces modèles encodent et traitent l’information pourrait nous éclairer sur les processus similaires dans notre cerveau.

Que l’on soit d’accord ou non avec toutes les positions d’Amodei, sa contribution au débat est précieuse par sa clarté et sa rigueur intellectuelle. À mesure que l’IA continue de progresser rapidement, ces discussions deviennent non seulement académiquement intéressantes, mais cruciales pour notre avenir collectif.

Featured image by Luigi Frunzio on Unsplash