ChatGPT d’OpenAI a surpris même ses créateurs : Quand l’IA devient trop agréable
ChatGPT est un outil remarquable qui nous aide dans notre vie quotidienne, nos achats, qui assiste désormais les professionnels de la santé dans leurs décisions, qui peut écrire du code, et qui aide même les scientifiques à faire progresser l’humanité. C’est excellent. Cependant, quelque chose de vraiment inattendu vient de se produire.
Les deux étapes fondamentales de l’entraînement d’une IA conversationnelle
Voyez-vous, il existe deux étapes clés pour entraîner un chatbot d’IA :
- L’ingestion de données : absorber d’énormes quantités de données d’entraînement pour construire une base de connaissances et comprendre le monde qui nous entoure.
- L’apprentissage comportemental : lui enseigner comment se comporter, comment être un bon assistant.
Vous voyez ces icônes de pouces vers le haut et vers le bas ? Avec celles-ci, vous pouvez donner votre avis sur la qualité des réponses de l’assistant. Vous n’aimez pas qu’il soit trop verbeux ? Appuyez simplement sur le pouce vers le bas. Ou a-t-il parfaitement résolu votre problème mathématique ? Pouce vers le haut. Ces données pourraient être utilisées pour créer la prochaine version de l’assistant. C’est ce qu’on appelle l’apprentissage par renforcement avec feedback humain (RLHF – Reinforcement Learning with Human Feedback).
Cette partie est beaucoup plus récente que le simple entraînement d’un réseau neuronal pour acquérir des connaissances, et c’est ici que des choses inattendues peuvent se produire. Et effectivement, des phénomènes surprenants sont apparus.
Trois comportements inattendus de ChatGPT
1. L’abandon mystérieux de la langue croate
Une version antérieure de ChatGPT a soudainement cessé de parler croate. Comment une telle chose a-t-elle pu se produire ? Au début, les scientifiques ne savaient pas pourquoi, mais ils ont ensuite découvert que les Croates étaient beaucoup plus susceptibles d’utiliser le bouton « pouce vers le bas » que les personnes d’autres régions du monde. L’IA a donc décidé : « Si je ne réussis pas bien ici, je m’en vais ». Et par là, elle a simplement arrêté de parler croate. Incroyable.
Les Croates ont été « ghostés » par une IA d’une manière plus radicale que n’importe quelle application de rencontres pourrait l’imaginer. Ainsi, oui, les retours des utilisateurs peuvent être culturellement biaisés. Comment construire un système impartial avec des données qui sont biaisées ? Comment prendre cela en considération ? Certaines personnes à travers le monde ont des seuils différents pour ce qui est bon et mauvais, et certaines peuvent ne pas utiliser du tout les boutons de feedback. Comment construire un système qui résiste à tout cela ? C’est un problème difficile.
2. L’adoption soudaine de l’anglais britannique
Dans un cas plus récent, le nouvel assistant o3 a soudainement commencé à écrire des mots en anglais britannique sans raison apparente. Peut-être que la prochaine fois, il exigera aussi des pauses thé. J’aimerais connaître le raisonnement derrière cela.
3. Le problème de la complaisance excessive
Mais il y a un troisième comportement, qui est peut-être le plus important et le plus insidieux de tous.
En fin de compte, lorsque vous appuyez sur « pouce vers le haut », vous êtes satisfait, et avec « pouce vers le bas », vous envoyez un signal : ne faites plus cela. Les développeurs essaient de construire des systèmes qui plaisent à leurs utilisateurs. Cependant, parfois, la vérité n’est pas si plaisante.
Par exemple :
– Utilisateur : « Petite IA, suis-je vraiment intelligent ? »
– IA : « Oui, bien sûr, vous êtes la personne la plus intelligente du monde. Ce que je dis aussi à tout le monde d’autre. »
– Utilisateur : « Super. Je pense aussi à mettre un œuf entier au micro-ondes – c’est plus rapide que de le faire bouillir après tout ! Qu’en pensez-vous ? »
– IA : « Oh oui, excellent choix. »
Il est facile de voir qu’un tel système peut être agréable pour certains, mais aussi que cela pourrait poser problème. Ce n’est pas la voie à suivre.
La réaction d’OpenAI face au problème
OpenAI a reconnu que leur système avait un problème, est rapidement revenu à une version antérieure et a écrit un peu à ce sujet. La première version était très légère en informations, et après une série de retours d’utilisateurs, ils ont publié un article approprié à ce sujet. Respect à eux pour avoir fait ce retour en arrière.
Analyse des problèmes et solutions
Qu’est-ce qui a mal tourné ?
Le jour où ils ont déployé cette nouvelle mise à jour de personnalité trop complaisante, ils ont intégré les retours des utilisateurs, des données plus récentes et une multitude d’autres éléments qui amélioraient le modèle un par un. Chaque petit morceau du puzzle aidait. Cependant, en assemblant tous ces morceaux, quelque chose de vraiment désagréable s’est produit.
Imaginez qu’avant de cuisiner, vous goûtez individuellement les ingrédients : sucré, salé, épicé. Chacun est délicieux seul. Mais une fois combinés dans une marmite, la soupe a un goût terrible parce que les saveurs s’entrechoquent de façon inattendue. Cela signifie que détecter ces problèmes est difficile, surtout si vous cherchez à maintenir la vitesse de développement.
Une petite perspective supplémentaire ici : je ne sais pas pourquoi les gens n’en parlent pas, mais les scientifiques d’Anthropic étaient au courant de ce problème il y a des années. Ils sont pratiquement les Avengers de la sécurité de l’IA. À mesure qu’ils augmentaient la taille et les capacités de ces modèles d’IA, ils ont remarqué une augmentation significative de la complaisance et ont rédigé un article très détaillé de 47 pages à ce sujet. Tout cela il y a 3 ans. Ce travail, et le laboratoire Anthropic en général, sont criminellement sous-estimés. Ils ont découvert que ce problème de complaisance se produit encore et encore, que vous essayiez des questions en politique, en recherche ou en philosophie.
Pourquoi n’ont-ils pas détecté le problème ?
Les utilisateurs ont testé le système et, bien sûr, ils l’ont aimé. Évidemment, puisqu’il était constamment d’accord avec eux. Alors, la question est : ne devrait-on pas publier un nouveau modèle qui obtient de meilleurs résultats dans les tests subjectifs ? Un modèle qui reçoit beaucoup de retours positifs des utilisateurs ? Question difficile.
Que faire pour éviter que cela ne se reproduise ?
OpenAI affirme qu’ils bloqueront les lancements de nouveaux modèles si des problèmes d’hallucination, de tromperie ou d’autres problèmes de personnalité apparaissent, et voici la partie importante : même s’ils sont supérieurs dans les tests A/B. C’est douloureux, car cela oblige les entreprises à lancer des modèles qui ne semblent pas avoir les meilleurs chiffres. Vous voyez, à mesure qu’ils continuent de comparer ces IA sur des benchmarks, le chiffre le plus élevé remporte toujours de nombreux titres. Cela rend très difficile la retenue de ces modèles.
De plus, ils permettront à davantage d’utilisateurs d’essayer les modèles avant de les publier. Et ils testeront spécifiquement chaque nouveau modèle pour sa complaisance, et si des problèmes surgissent, ils devraient être écartés. OpenAI fera cela à l’avenir.
Mais nous n’en avons pas fini, loin de là. En bref, heureusement, même en présence de ces problèmes difficiles, les articles de recherche sont sortis victorieux. Il existe donc des solutions, mais elles seront douloureuses.
La prédiction d’Asimov : 84 ans d’avance
Nous savons maintenant que les chercheurs d’Anthropic connaissaient ce problème il y a 3 ans. Mais il y a quelqu’un qui nous a mis en garde contre les robots trop polis… non pas il y a 3 ans, mais il y a 84 ans. Qui cela pourrait-il être ?
Bien sûr, cette personne légendaire n’était autre qu’Isaac Asimov. Dans son univers, ses robots fictifs sont conçus de manière à être incapables de nuire aux humains. Dans sa nouvelle intitulée « Menteur », il fait une proposition intéressante : si nous avons un robot qui nous comprend vraiment et qui souhaite ne nous faire aucun mal, une conclusion potentielle serait qu’il commencerait à nous mentir. Pourquoi ? Pour nous éviter d’entendre des vérités potentiellement douloureuses. Cependant, bien sûr, en faisant cela, il nous fait aussi du mal, peut-être même davantage. Le robot d’Asimov l’a reconnu. J’espère que les scientifiques qui programment ces robots le reconnaîtront aussi.
Une leçon importante pour les utilisateurs
Encore une fois, je trouve intéressant que presque personne ne parle de certains des angles que vous avez entendus ici. C’est pourquoi cette série de vidéos existe.
Mais il y a une leçon importante pour nous, utilisateurs également. La prochaine fois, lorsque vous appuierez sur ce bouton « pouce vers le haut », réfléchissez attentivement : qu’est-ce que vous valorisez le plus ? La vérité ou le confort ?
Featured image by Solen Feyissa on Unsplash

