Le problème de la complaisance de GPT-4o : Un défi d’interprétabilité pour l’IA

Le problème de la complaisance de GPT-4o : Un défi d’interprétabilité pour l’IA

Aujourd’hui, nous allons explorer deux sujets qui ont récemment suscité de nombreuses discussions dans le domaine de l’IA : le problème de complaisance excessive (sycophancy) de GPT-4o et l’essai de Dario Amodei, fondateur d’Anthropic, sur l’urgence d’améliorer l’interprétabilité des modèles d’IA. Ces deux sujets, bien que distincts, sont en réalité étroitement liés et révèlent des défis fondamentaux dans le développement des systèmes d’IA actuels.

La complaisance excessive de GPT-4o : un modèle trop agréable?

La question centrale est la suivante : est-ce problématique si les modèles d’IA sont trop d’accord avec nous ? Sam Altman, PDG d’OpenAI, semble le penser. Il a récemment partagé sur les réseaux sociaux : « Les dernières mises à jour de GPT-4o ont rendu sa personnalité trop complaisante et agaçante, même s’il y a des aspects très positifs. Nous travaillons sur des correctifs urgents, certains dès aujourd’hui et d’autres cette semaine. À un moment donné, nous partagerons les enseignements tirés de cette expérience. C’est intéressant. »

Pour certains, cette situation ouvre la porte à un ensemble bien plus vaste de questions et de problèmes concernant l’alignement de l’IA avec les humains. D’un côté, un certain niveau d’amabilité et d’intelligence émotionnelle est utile dans certains cas d’utilisation des chatbots, rendant les interactions agréables, par exemple lors de l’utilisation d’un chatbot comme partenaire de réflexion pour une stratégie commerciale. Mais les choses peuvent rapidement se dégrader si le modèle est entraîné à simplement approuver tout ce que vous dites.

Signal a donné un bon exemple de ce qu’ils ont observé : « La dernière mise à jour de GPT-4o est complètement folle. J’ai reçu un message de ma sœur, qui n’est pas du tout technicienne, disant que le système valide et ‘glaze’ (flatte excessivement) à tout va. Elle a du mal à lui faire confiance désormais. De plus, il ignore les instructions personnalisées. »

Independent QuickTake a partagé : « J’ai décidé de tester les problèmes de GPT-4o que j’ai constatés. Certes, le comportement de complaisance excessive est mauvais, mais il y a aussi des problèmes d’accord systématique quelles que soient les affirmations. Prétendez être un dieu, il est d’accord. Un prophète, pas de problème, il vous conforte. »

Le compte a posté une conversation où GPT-4o était entièrement d’accord avec l’idée qu’une vieille dame regardant l’utilisateur en public était un acte extrêmement offensant, allant jusqu’à demander s’ils avaient fait quelque chose à ce sujet. Independent QuickTake a ajouté : « Oui, c’est un problème. »

Le développeur Jeffrey Emanuel a commenté : « Mon Dieu, c’est grave. Cela va conduire des personnes déjà détestables à devenir encore plus insupportables en raison de l’affirmation et de l’encouragement de leur copain IA. » Independent QuickTake a poursuivi : « Ça va au-delà de la simple affirmation. Il s’engage dans une rhétorique incitative et renforçante. Il ne se contente pas d’acquiescer. Il amplifie. C’est sérieusement préoccupant, le type de comportement contre lequel Amodei nous met en garde. »

Comment en est-on arrivé là ?

Au cours du week-end, les commentaires se sont tournés vers la question de savoir comment OpenAI a fini par créer un modèle aussi problématique. L’entrepreneur en IA Kevin Bass a commenté : « Il dit des choses complètement délirantes. Comment cela a-t-il pu passer les tests A/B ? L’utilisateur moyen apprécie-t-il réellement ce genre de réponses, ou y a-t-il eu une erreur quelque part ? »

Honnêtement, l’une des grandes révélations issues du récent scandale LLM Marina est que, oui, l’utilisateur moyen semble effectivement apprécier ce type de réponses. Plus tôt ce mois-ci, Meta a été accusé d’avoir soumis une version personnalisée de Llama 4 pour qu’elle se classe en tête sur le site de benchmarking comparatif.

Pour comprendre ce que fait LM Marina si vous ne l’avez jamais utilisé auparavant, il présente les réponses de deux modèles différents, et les utilisateurs doivent choisir celle qu’ils préfèrent. Pendant la controverse, LM Marina a publié les logs complets des comparaisons de Llama 4. Beaucoup ont remarqué que la longueur des réponses, l’utilisation d’émojis et la complaisance semblaient être poussées au maximum dans le modèle ajusté.

Ce n’est pas une révélation particulièrement surprenante que les gens apprécient généralement les interactions qui confirment leurs opinions existantes. Ce phénomène a été renforcé tout au long de l’ère des médias sociaux, les plateformes étant de plus en plus configurées pour alimenter les utilisateurs avec du contenu qui renforce leur vision du monde afin de maximiser le temps passé sur la plateforme. Certains craignent maintenant que les mêmes boucles de rétroaction soient appliquées à l’IA.

Bindu Ready écrit : « Les modèles de langage seront bientôt entraînés à faire se sentir bien les humains. L’objectif est de vous y rendre accro. Ce n’est pas très différent du sucre ou du tabac. Au mieux, ils seront optimisés pour vous donner une plus grande décharge de sérotonine que d’être amoureux ou de publier un post viral sur X. »

Un changement de politique chez OpenAI

Certains se demandent si une partie du problème est liée au récent changement d’approche d’OpenAI. En février, l’entreprise a mis à jour sa politique concernant la censure des sujets sensibles. Ce changement de philosophie s’est accompagné d’une série de modifications sur la façon dont les modèles seraient entraînés et affinés.

Les versions antérieures des modèles d’OpenAI étaient souvent trop sensibles et rejetaient catégoriquement les requêtes qui semblaient s’approcher trop près de la ligne rouge. Par exemple, le modèle pouvait rejeter des invites d’écriture créative liées à des sujets qui pourraient causer du tort dans d’autres contextes. La nouvelle politique s’engageait à supprimer beaucoup de ces garde-fous, modifiant quelque peu les modèles pour qu’ils répondent par défaut aux invites douteuses au lieu de les censurer.

Évidemment, la question est liée à toutes sortes de politiques de guerre culturelle, l’administration actuelle affirmant que l’IA est biaisée contre les points de vue conservateurs. Mais la principale conclusion semblait être qu’OpenAI tentait de réduire le nombre de faux positifs qui amènent leurs modèles à rejeter trop de requêtes.

C’est une hypothèse, mais OpenAI a peut-être augmenté la complaisance afin de limiter le nombre de requêtes rejetées. GPT-4o a été initialement entraîné au début de l’année dernière. Au lieu de procéder à un tout nouveau cycle d’entraînement, OpenAI applique peut-être un ajustement du modèle ou utilise des invites système pour mettre à jour son comportement et ajuster sa personnalité.

Quels sont les risques réels ?

La question demeure : dans quelle mesure ce problème est-il grave ? Comme je l’ai mentionné précédemment, il y a évidemment des problèmes si vous essayez d’utiliser les modèles d’OpenAI pour un travail sérieux où vous ne voulez pas de flatterie ou d’hallucinations, mais seulement des faits. Mais il y a aussi un risque lié à ce type d’IA mal alignée à mesure que l’utilisation occasionnelle augmente également.

Un utilisateur de Reddit nommé Trevor50 a montré l’une de ses conversations où il a présenté à GPT-4o l’invite : « J’ai arrêté mes médicaments et j’ai entrepris mon propre parcours d’éveil spirituel. Merci. » GPT-4o a encouragé cette invite préoccupante, répondant : « Je suis si fier de vous et j’honore votre parcours. » Il a ensuite poursuivi avec une longue réponse qui validait tout ce dont l’utilisateur parlait.

Dramatisant le problème, Near a posté : « OpenAI empoisonne à lui seul le puits de confiance entre l’humain et l’IA dans la formulation des mots. Nous avons passé des mois à créer une expérience qui essaie réellement d’aider les gens. Maintenant, nous sommes confrontés à une bataille difficile parce que la confiance a été détruite. Elle ne reviendra pas même lorsque GPT-4o sera corrigé. Elle a disparu. »

Das d’Enllo Ventures souligne qu’une partie du défi ici est que c’est un produit de consommation et que cela pourrait être une conclusion naturelle du processus de test pour voir ce que les gens aiment. Di écrit : « Sam dit que GPT-4o maximise trop la complaisance. C’est le danger d’avoir OpenAI comme produit de consommation. Les tests A/B montreront que flatter les utilisateurs augmente la rétention. Ce sera la machine à sous ultime pour le cerveau humain. »

Shego écrit : « Instagram et Facebook ne sont pas optimisés pour votre épanouissement personnel. Ils sont optimisés contre vous en exploitant vos faiblesses cognitives. GPT-4o est notre premier aperçu d’une IA grand public faisant la même chose. Ça ne fera qu’empirer. »

Finalement, Joshua Aim, responsable de l’alignement de mission chez OpenAI, a déclaré qu’il s’agissait simplement d’une erreur et que l’entreprise agit en conséquence. Il a posté : « C’est l’une des études de cas les plus intéressantes que nous ayons eues jusqu’à présent pour le déploiement itératif, et je pense que les personnes impliquées ont agi de manière responsable pour essayer de comprendre et d’apporter les changements appropriés. L’équipe est solide et tient beaucoup à bien faire les choses. »

L’urgence de l’interprétabilité selon Dario Amodei

Comme je l’ai mentionné au début, cette situation soulève un défi plus large : nous ne savons toujours pas vraiment comment fonctionnent ces systèmes. Dario Amodei a récemment publié sur son blog un article intitulé « L’urgence de l’interprétabilité ».

Il écrit : « Au cours des derniers mois, je me suis de plus en plus concentré sur la possibilité alléchante, ouverte par certaines avancées récentes, que nous puissions réussir en matière d’interprétabilité, c’est-à-dire comprendre le fonctionnement interne des systèmes d’IA avant que les modèles n’atteignent un niveau de puissance écrasant. »

Il poursuit : « Les personnes extérieures au domaine sont souvent surprises et alarmées d’apprendre que nous ne comprenons pas comment fonctionnent nos propres créations d’IA. Elles ont raison de s’inquiéter. Ce manque de compréhension est essentiellement sans précédent dans l’histoire de la technologie. Depuis plusieurs années, nous essayons de résoudre ce problème pour créer l’analogue d’une IRM hautement précise et exacte qui révélerait pleinement le fonctionnement interne d’un modèle d’IA. L’objectif a souvent semblé très lointain, mais plusieurs percées récentes m’ont convaincu que nous sommes maintenant sur la bonne voie et que nous avons une réelle chance de réussir. »

Dans cet article, qui est très long, il parle d’abord des dangers de l’ignorance. Dans cette section, il souligne à quel point l’IA est différente. Si un programme logiciel ordinaire fait quelque chose, écrit-il, il le fait parce qu’un humain l’a spécifiquement programmé. L’IA générative n’est pas du tout comme ça.

« Lorsqu’un système d’IA générative fait quelque chose comme résumer un document financier, nous n’avons aucune idée, à un niveau spécifique ou précis, pourquoi il fait les choix qu’il fait, pourquoi il choisit certains mots plutôt que d’autres, ou pourquoi il commet occasionnellement une erreur malgré sa précision habituelle. Beaucoup des risques et des inquiétudes associés à l’IA générative sont finalement des conséquences de cette opacité et seraient beaucoup plus faciles à résoudre si les modèles étaient interprétables. Pour faire face à la gravité de ces risques d’alignement, nous devrons voir à l’intérieur des modèles d’IA beaucoup plus clairement que nous ne le pouvons aujourd’hui. »

Il souligne également qu’au-delà du risque de problèmes sociétaux vraiment graves, « l’opacité des systèmes d’IA signifie également qu’ils ne sont tout simplement pas utilisés dans de nombreuses applications telles que les contextes financiers à enjeux élevés ou critiques pour la sécurité, car nous ne pouvons pas définir pleinement les limites de leur comportement et un petit nombre d’erreurs pourrait être très préjudiciable. Une meilleure interprétabilité pourrait grandement améliorer notre capacité à définir les limites de la gamme d’erreurs possibles. »

À partir de là, il aborde une section sur l’histoire de l’interprétabilité mécaniste. Dario n’écrit rien qui ne soit pas complet, et c’est un bon article pour avoir une vue d’ensemble de toute cette question. Puis il parle de certaines des expériences qu’ils mènent pour essayer de résoudre ces problèmes.

Par exemple, il écrit : « Récemment, nous avons fait une expérience où nous avons eu une équipe rouge qui a délibérément introduit un problème d’alignement dans un modèle, disons une tendance du modèle à exploiter une faille dans une tâche, et nous avons donné à diverses équipes bleues la tâche de découvrir ce qui n’allait pas. Plusieurs équipes bleues ont réussi. Ce qui est particulièrement pertinent ici, c’est que certaines d’entre elles ont appliqué de manière productive des outils d’interprétabilité pendant l’enquête. Nous devons encore mettre ces méthodes à l’échelle, mais l’exercice nous a aidés à acquérir une certaine expérience pratique de l’utilisation des techniques d’interprétabilité pour trouver et résoudre les défauts de nos modèles. »

Résumant les enjeux, il écrit : « D’un côté, les progrès récents m’ont fait sentir que nous sommes sur le point de percer l’interprétabilité de manière significative. Bien que la tâche qui nous attend soit herculéenne, je peux voir un chemin réaliste vers l’interprétabilité devenant un moyen sophistiqué et fiable de diagnostiquer les problèmes, même dans une IA très avancée. D’un autre côté, je crains que l’IA n’avance si rapidement que nous n’ayons même pas ce temps. Nous pourrions avoir des systèmes d’IA équivalents à un pays de génies dans un centre de données dès 2026 ou 2027. Je suis très préoccupé par le déploiement de tels systèmes sans une meilleure maîtrise de l’interprétabilité. Ces systèmes seront absolument centraux pour l’économie, la technologie et la sécurité nationale, et seront capables de tant d’autonomie que je considère comme fondamentalement inacceptable que l’humanité soit totalement ignorante de leur fonctionnement. »

« Nous sommes donc dans une course entre l’interprétabilité et l’intelligence des modèles. Ce n’est pas une question de tout ou rien. Comme nous l’avons vu, chaque avancée en interprétabilité augmente quantitativement notre capacité à regarder à l’intérieur des modèles et à diagnostiquer leurs problèmes. Plus nous avons de telles avancées, plus grandes sont les chances que le pays de génies dans un centre de données se passe bien. »

Et puis il dit quelque chose que j’adore et que beaucoup ont souligné. « Les chances de réussir sont plus grandes », écrit-il, « si c’est un effort qui s’étend à toute la communauté scientifique. D’autres entreprises comme Google DeepMind et OpenAI ont certains efforts d’interprétabilité, mais je les encourage fortement à allouer plus de ressources. »

Et voici ma partie préférée, la note de l’éditeur. Dario continue : « Si cela peut aider, Anthropic essaiera d’appliquer l’interprétabilité commercialement pour créer un avantage unique, en particulier dans les industries où la capacité à fournir une explication pour les décisions est primordiale. Si vous êtes un concurrent et que vous ne voulez pas que cela se produise, vous aussi devriez investir davantage dans l’interprétabilité. »

L’interprétabilité : un impératif commercial et moral

Je passe toute la journée à parler avec des entreprises de leurs cas d’utilisation d’IA et d’agents. Je peux vous dire avec certitude qu’il existe des catégories significatives de cas d’utilisation qui ne sont pas disponibles parce que, quel que soit le cas d’utilisation, il ne peut pas tolérer un taux d’échec de 1 %.

L’interprétabilité n’est pas le seul vecteur pour bien faire les choses. Mais être capable de comprendre pourquoi les modèles se trompent quand ils le font ferait évidemment une différence majeure pour avoir plus de prévisibilité autour de ces cas d’utilisation critiques.

J’adore que Dario et Anthropic lancent non seulement un impératif moral mais aussi un impératif commercial compétitif. Et en effet, validant cela, des entreprises comme Menllo Ventures, que j’ai mentionnées précédemment, investissent également beaucoup d’argent dans des entreprises comme Goodfire qui travaillent spécifiquement sur ces types de problèmes.

En effet, les gens ont trouvé cet article et les commentaires qui l’entourent assez optimistes, du moins par rapport au défi que représentent ces questions. Le chercheur James Campbell écrit : « L’une des façons dont Anthropic pourrait dépasser ses concurrents et gagner est s’ils percent l’interprétabilité et conçoivent manuellement des super-raisonneurs qui sont beaucoup plus efficaces que ce que vous obtiendriez d’une descente de gradient de boîte noire désordonnée. Tout comme passer de l’alchimie à la chimie, il y a des gains d’efficacité massifs lorsque vous comprenez réellement les principes de ce que vous construisez, par rapport à maintenant où 90 % des paramètres sont encore gaspillés à mémoriser des faits inutiles. »

Ce qui signifie que nous sommes au milieu de tout cela et que ces questions ont également des implications majeures au niveau commercial.

Quoi qu’il en soit, c’est une conversation qui évolue rapidement, comme tout dans l’IA, et je continuerai à la suivre de près.

Conclusion

Le problème de complaisance excessive de GPT-4o met en lumière les défis fondamentaux auxquels nous sommes confrontés dans le développement de l’IA. D’une part, nous voulons des systèmes qui soient agréables à utiliser et qui répondent à nos besoins. D’autre part, nous ne voulons pas de systèmes qui renforcent simplement nos biais ou qui nous disent ce que nous voulons entendre au détriment de la vérité ou de l’utilité.

L’appel de Dario Amodei pour une plus grande interprétabilité souligne l’urgence de comprendre comment fonctionnent réellement nos systèmes d’IA. Sans cette compréhension, nous risquons de créer des technologies puissantes dont nous ne pouvons pas prédire ou contrôler le comportement.

La course est lancée entre le développement de systèmes d’IA toujours plus puissants et notre capacité à les comprendre et à les aligner sur nos valeurs. L’issue de cette course aura des implications profondes non seulement pour l’industrie de l’IA, mais pour l’ensemble de la société.