La première publication scientifique entièrement générée par l’IA de Sakana passe avec succès l’évaluation par les pairs

La première publication scientifique entièrement générée par l’IA de Sakana passe avec succès l’évaluation par les pairs

Vous vous souvenez peut-être d’un projet d’IA dont nous avions parlé en août 2024, appelé « AI Scientist » développé par l’entreprise Sakana.AI. Ce système avait été conçu pour réaliser de manière autonome des découvertes scientifiques, où l’IA contribuerait à de nouvelles avancées dans le domaine scientifique. L’idée était de prendre des grands modèles de langage (LLM), de créer une structure autour d’eux, de leur fournir des outils et de les laisser mener des recherches de façon indépendante.

Une première mondiale : publication scientifique autonome par l’IA

Aujourd’hui, nous assistons à une avancée majeure : l’AI Scientist a généré sa première publication scientifique évaluée par des pairs. À notre connaissance, c’est le premier article de ce type. Il s’agit d’un exemple d’IA contribuant de manière totalement autonome, réalisant elle-même tout le travail et toutes les expériences, et apportant de nouvelles connaissances à la science.

L’explosion d’intelligence et ses implications

Vous avez probablement déjà vu cette image sur cette chaîne, mais pour que tout le monde soit sur la même page, il existe cette idée d’une « explosion d’intelligence », un moment dans le futur où l’IA dépasserait l’intelligence humaine. Leopold Aschenbrenner, un ancien chercheur en sécurité de l’IA chez OpenAI, suggère que cela pourrait se produire vers 2027, une prédiction qui n’est pas très éloignée de celles d’autres experts comme Dario Amodei.

L’idée fondamentale est la suivante : nous savons que l’IA commence à automatiser certaines tâches, parfois mieux que les humains, parfois moins bien, et parfois beaucoup mieux. Mais que se passerait-il si elle devenait meilleure que les humains dans un domaine particulier : la recherche en IA elle-même ? Quand les systèmes d’IA deviendront-ils meilleurs pour s’améliorer eux-mêmes que les humains ne l’ont été ?

Cela déclencherait probablement une forte inflexion vers le haut du rythme de progression des capacités de l’IA, ce qui se répercuterait sur pratiquement tous les autres domaines du progrès scientifique. C’est une perspective qui suscite beaucoup d’enthousiasme – elle pourrait conduire à une nouvelle ère dorée du progrès scientifique – mais aussi un peu d’inquiétude, car nous ne savons pas exactement à quoi cela ressemblerait. L’idée que l’IA fasse des choses que nous ne comprenons pas pleinement pour faire progresser ses propres capacités est un peu intimidante.

AI Scientist 2.0 : une évolution significative

L’AI Scientist dont nous parlons aujourd’hui est une version 2.0, ce n’est pas l’original (qui, soit dit en passant, est un projet open-source que vous pouvez télécharger et auquel vous pouvez contribuer sur GitHub). Cette nouvelle version, plus avancée, sera également open-source dans un futur proche, rendant ces technologies accessibles à tous.

L’article anonyme et le processus d’évaluation par les pairs

L’article écrit par cet AI Scientist a été soumis avec des « auteurs anonymes ». La raison ? Le processus d’évaluation par les pairs était en lui-même une sorte d’expérience d’IA.

Il existe plusieurs conférences très prestigieuses dans le domaine de l’apprentissage automatique, et l’ICLR en fait partie. Ces conférences disposent d’ateliers où l’on peut soumettre des articles pour qu’ils soient évalués par des pairs selon certaines directives, afin de s’assurer qu’il s’agit de travaux de haute qualité, que la science est bien faite, que tout est correctement noté, etc.

Cette année, une clause supplémentaire a été ajoutée : les évaluateurs allaient potentiellement voir des articles générés par l’IA mêlés aux autres articles « réels » écrits par de vrais auteurs humains. Il s’agissait d’une petite fraction du total des articles, et les évaluateurs ont été informés qu’il était possible, bien qu’improbable, qu’ils se voient attribuer un article généré par l’IA à évaluer.

L’étude était en double aveugle, donc personne ne savait quel article était humain et quel article était généré par l’IA. Et comme il était peu probable qu’un seul individu évalue ce papier, les évaluateurs devaient supposer qu’ils notaient un article humain et le traiter comme n’importe quel autre article à évaluer.

Un article de qualité supérieure à la moyenne humaine

Fait remarquable, l’article s’est avéré de meilleure qualité, selon ces évaluateurs, que beaucoup d’articles soumis par des humains. Il était d’une qualité supérieure aux articles acceptés moyens écrits par des auteurs humains. Cependant, il n’était pas parfait.

Les évaluateurs, ainsi que les personnes derrière ce projet, ont remarqué certaines incohérences. Par exemple, l’AI Scientist a fait référence à une « structure d’imbrication » alors que l’expérience n’en contenait pas.

Une erreur révélatrice et ironique

Il y a eu une erreur particulièrement bizarre et ironique dans l’article. Dans la communauté de l’IA, il y a une personne très connue du nom de Jürgen Schmidhuber. Il a eu beaucoup d’idées par le passé sur la façon de faire avancer le domaine de l’IA et de l’apprentissage automatique, et il affirme que beaucoup des progrès actuels devraient lui être attribués.

Par exemple, lorsqu’un prix a été décerné au Dr. Hinton, considéré comme le « parrain de l’IA », Jürgen a écrit : « Arrêtez d’attribuer le mérite aux mauvaises personnes pour des inventions faites par d’autres. » Il critique souvent des personnalités comme Yan LeCun, Yoshua Bengio et Geoffrey Hinton, suggérant qu’ils ont copié ses travaux. Cela est devenu presque un mème dans la communauté de recherche en IA.

Or, dans l’article de l’AI Scientist, lorsqu’il décrit l’architecture du modèle utilisé, il mentionne : « Nous utilisons un réseau de neurones basé sur LSTM » qu’il attribue à Goodfellow et al., un article publié en 2016. Le problème ? Le crédit aurait dû aller à Hochreiter et Schmidhuber, 1997. LSTM (Long Short-Term Memory) a été développé par Jürgen Schmidhuber en 1997.

C’est à la fois hilarant et ironique : le premier article de recherche en IA entièrement autonome qui a passé le processus d’évaluation par les pairs ne parvient pas à créditer correctement l’homme qui est très vocal et très insistant sur le fait de ne pas être crédité pour son travail.

Que fait réellement l’IA dans ce processus ?

Vous vous demandez peut-être ce que l’IA a réellement fait. Est-ce que des scientifiques ont fait le travail et l’IA a simplement rédigé l’article ? Quelle a été son implication dans le processus ?

Les chercheurs humains ont choisi le sujet général ou du moins le domaine dans lequel l’IA devait travailler (puisqu’ils soumettaient l’article à une conférence sur l’apprentissage automatique, il ne pouvait pas s’agir d’une étude biologique ou autre). Ils ont donné à l’AI Scientist un sujet large sur lequel effectuer des recherches, qui devait être pertinent pour l’atelier auquel il était soumis.

À partir de là, l’AI Scientist version 2 a:

  1. Formulé l’hypothèse scientifique (la question qu’il allait tester)
  2. Proposé les expériences à réaliser pour tester cette hypothèse
  3. Écrit et affiné tout le code nécessaire pour mener ces expériences
  4. Exécuté les expériences
  5. Analysé les données issues des expériences
  6. Visualisé les données sous forme de figures
  7. Rédigé chaque mot du manuscrit scientifique, du titre aux références finales, y compris le placement des figures et tout le formatage

Les chercheurs humains ont ensuite sélectionné les articles à soumettre – ils en ont soumis trois au total, et celui dont nous parlons a reçu une note moyenne de 6,33, se classant approximativement dans les 45% de toutes les soumissions. Ces scores sont supérieurs à ceux de nombreux autres articles rédigés par des humains et acceptés à l’atelier, et au-dessus du seuil moyen d’acceptation.

Trois évaluateurs ont noté l’article : l’un lui a donné un 6, un autre un 7, et le dernier un 6. Un 6 est légèrement au-dessus du seuil d’acceptation, tandis qu’un 7 signifie « c’est un bon article, pas de plaintes, nous l’acceptons ».

Implications éthiques et questions ouvertes

Il est important de noter que cet atelier n’est probablement pas aussi rigoureux que la soumission à la conférence elle-même. De plus, une fois le processus d’évaluation par les pairs passé, l’entreprise derrière ce projet a retiré les articles, car il existe certainement de nombreuses questions éthiques sur la façon d’aborder des articles entièrement générés par l’IA et évalués par des humains.

Comment cela change-t-il ce qu’est un scientifique ? Bien que nous puissions tous avoir des opinions différentes à ce sujet, c’est une conversation en cours, une technologie très nouvelle à laquelle nous nous adaptons tous.

Cette expérience visait à déterminer si des articles entièrement autonomes créés par l’IA pouvaient passer le processus d’évaluation par les pairs. L’un d’entre eux semble théoriquement l’avoir fait – il aurait été accepté s’ils avaient poursuivi la démarche (bien qu’il aurait pu être rejeté par la méta-évaluation). Comme on peut le voir, il a obtenu de meilleurs résultats que beaucoup de scientifiques humains qui ont soumis leurs articles.

Les deux autres articles soumis ont reçu des notes plus basses : l’un a obtenu 3, 7 et 4, l’autre 3, 3 et 3. Seul celui dont nous parlons aurait été accepté, bien qu’étrangement, il présente une gamme très large d’opinions de la part des évaluateurs.

Un moment historique pour l’IA et la science

Il s’agit d’un moment historique, et c’est le deuxième pour cette entreprise. Comme ils le disent, l’AI Scientist original (version 1.0) représentait la première fois – c’était en août 2024, il n’y a pas si longtemps – que l’IA générait des manuscrits scientifiques entiers. Et maintenant, à leur connaissance et à la nôtre, c’est la première fois qu’un article entièrement généré par l’IA est suffisamment bon pour passer un processus standard d’évaluation scientifique par les pairs.

Comme ils le déclarent avec force : « Nous, en tant que communauté, devons développer des normes concernant la science générée par l’IA, notamment quand et comment déclarer qu’un article est entièrement ou partiellement généré par l’IA, et à quel moment du processus. »

Le débat sur la valeur du contenu généré par l’IA

Je peux déjà sentir que cela va être un sujet de débat important. Il y a déjà des personnes des deux côtés de la question avec des opinions très tranchées.

Vous vous souvenez peut-être quand Sam Altman a publié une courte histoire qui était censée être une métafiction où une IA décrit comment elle crée des histoires courtes métafictionnelles. J’ai trouvé que l’écriture était assez bonne, étonnamment bonne même. De nombreuses personnes ont commenté le post de Sam Altman et la vidéo que j’ai faite à ce sujet, et un certain pourcentage d’entre elles ont dit quelque chose comme : « Parce que c’est généré par l’IA, c’est donc sans signification. »

Beaucoup d’entre eux ont décrit de différentes manières qu’il n’y a pas de sens, pas de poids dans ce contenu. Une autre personne dans les commentaires de ma vidéo a dit que l’écriture humaine a quelque chose comme des « signaux plus profonds » qui relient l’expérience de la personne à l’écriture. Je ne sais pas si cela est censé être littéral – comme si les mots étaient en quelque sorte différents – ou s’il s’agit d’une expression figurative. Je ne comprends pas pleinement ce que les gens veulent dire par là.

Qu’il s’agisse de musique, d’art ou de texte généré par l’IA, nous pouvons avoir nos opinions à ce sujet. Je pourrais aimer des images générées par l’IA ou de la musique générée par l’IA, quelqu’un d’autre pourrait dire « Je ne veux rien avoir à faire avec ça, je préfère n’écouter que de la musique générée par des humains ». C’est une opinion, et tout le monde est bien sûr libre d’avoir ses propres préférences.

Mais il semble qu’il y ait beaucoup de gens qui pensent que les pixels, les mots générés par les grands modèles de langage manquent fondamentalement de quelque chose. C’est comme s’ils lisaient quelque chose sans se rendre compte qu’il a été écrit par une machine, ils pourraient dire « Oh, c’est un bon morceau d’écriture », et si vous leur dites « En fait, GPT-4 l’a écrit », ils répondent « Oh, alors c’est mauvais ». Comme si quelque chose changeait en fonction de son origine.

D’après ce que je peux dire, il y a un certain pourcentage de personnes qui croient sincèrement cela. Je ne dis pas s’ils ont raison ou tort, je ne suis pas là pour simplement imposer mon opinion.

Vous savez comment parfois, si on vous demande de jouer l’avocat du diable, de défendre une position avec laquelle vous n’êtes peut-être pas d’accord ? C’est un exercice de réflexion intéressant. S’il y a quelque chose pour lequel vous avez une opinion passionnée et forte, pouvez-vous défendre efficacement la position contraire ? J’essaie de le faire parce que je pense que cela aide vraiment à comprendre ce que l’autre personne pense. Ici, je ne pense pas que je pourrais le faire parce que je ne comprends pas pleinement cette position.

Comme ils le disent, il y aura des questions difficiles sur la façon dont la science doit être jugée sur ses propres mérites d’abord, pour éviter les préjugés contre elle. Cela signifie qu’à l’avenir, à un moment donné, ces systèmes d’IA seront capables de produire de grandes contributions à la science. Si ces articles sont soumis avec des noms d’auteurs humains, les gens pourraient reconnaître leur mérite et dire : « C’est un excellent article, ajoutons-le à notre compréhension scientifique de l’humanité ». Cependant, s’il est précisé que le grand modèle de langage a développé cette hypothèse, l’a testée, etc., il pourrait être rejeté comme « bouillie d’IA ». Les gens pourraient simplement le percevoir comme de qualité inférieure, non pas parce qu’il est techniquement erroné ou qu’il a échoué dans un raisonnement, mais simplement à cause de son origine.

Lors de l’atelier, ils ont informé les évaluateurs que s’ils préféraient ne pas évaluer les articles d’IA, ils devaient le leur faire savoir. Je serais très curieux de savoir, premièrement, s’il y a des personnes qui s’opposeraient fortement à l’évaluation de quelque chose fait par un ordinateur plutôt que par un humain. Et il serait également très intéressant de savoir si certains des évaluateurs présentent des divergences statistiques dans leur façon de juger les articles, peut-être parce qu’ils étaient à l’affût de « bouillie d’IA ».

Peut-être qu’un des rédacteurs humains a utilisé le mot « approfondir » une fois de trop, et peut-être qu’un évaluateur s’est dit : « Je vais déclasser cet article parce que c’est évidemment écrit par un grand modèle de langage ». Il serait curieux de voir si des choses comme ça se produisent. Je ne dis pas que c’est le cas, mais il serait intéressant de quantifier s’il existe un biais anti-IA.

L’évolution de l’AI Scientist : du concept à la réalité

Il y a six mois, AI Scientist 1.0 a été publié en open source. Il propose de nombreuses idées d’expériences et d’hypothèses, effectue une vérification de nouveauté pour s’assurer qu’il ne reproduit pas un travail déjà fait, et d’après mon expérience, les grands modèles de langage sont exceptionnellement bons pour ce type de brainstorming. Ils sont phénoménaux, et plusieurs études confirment qu’ils sont bien meilleurs que les humains pour générer rapidement beaucoup de bonnes idées.

Si vous pensez simplement au brainstorming, c’est quelque chose dans lequel ils excellent. Les vérifications de nouveauté, encore une fois avec la bonne base de données où ils récupèrent et lisent les informations, je suppose qu’ils seraient très bons à cela, car ce n’est pas un simple « Ctrl+F » où vous cherchez juste si ce mot est inclus. Ils sont capables de comprendre les sujets, la sémantique, pour voir si cet article est similaire à cet autre article, etc.

Ensuite, le système évalue les différentes idées, prend les meilleures, archive peut-être celles qui n’ont pas obtenu un score assez élevé. Fait intéressant, les grands modèles de langage peuvent être assez mauvais pour cela. Il faut réfléchir à la façon de structurer leur approche pour noter les articles. D’après mon expérience, si vous dites simplement « notez ceci de 1 à 10 », le résultat pourrait ne pas être très bon. Cependant, décomposer granulairment – donner +1 point s’il a ceci, +1 point s’il a cela – en le décomposant de manière itérative, cela tend à très bien fonctionner.

Ensuite, il crée le modèle d’expérience, le code, le script d’exécution de l’expérience, réalise les expériences, met à jour les différents plans, prend les données, fait les tracés numériques, etc., rédige le manuscrit réel de ce qu’il a trouvé, et finalement soumet le LLM pour l’évaluation de l’article. D’ailleurs, cela fait partie du processus d’IA : il évalue également l’article. Une partie de ce travail consiste à développer un évaluateur automatisé alimenté par LLM capable d’évaluer les articles générés avec une précision quasi humaine.

Si vous vous demandez comment ils ont trouvé ces articles particuliers à soumettre pour l’évaluation par les pairs, il y avait probablement une sorte d’évaluation automatisée par l’IA. Il s’agissait probablement de certains des articles les mieux notés – je ne fais que deviner, je ne sais pas si c’est vrai ou non, mais cela ne me surprendrait pas.

Conclusion et réflexions

Mais dites-moi ce que vous en pensez. Premièrement, pensez-vous que c’est important ? Pensez-vous que c’est une étape importante que nous venons de franchir ? Pensez-vous que c’est comme un premier pas vers une explosion d’intelligence potentielle ? S’agit-il d’une sorte de prototype précoce d’agents de recherche en IA automatisés ?

Et aussi, pensez-vous qu’il y aura un biais contre ces articles d’IA entièrement réalisés par des scientifiques IA ? Supposons que nous puissions établir qu’en moyenne, les articles d’IA contiennent exactement la même quantité d’erreurs que les articles humains. Donc la qualité est en moyenne la même, ce n’est pas comme s’ils faisaient un travail bien pire, hallucinant un tas de choses. Supposons qu’ils soient à peu près identiques. Est-il rationnel d’avoir un préjugé contre la science produite par l’IA par rapport à la science produite par l’homme ? Est-il moral ou éthique que ces articles soient soumis pour être acceptés dans notre corpus de travail de découverte scientifique ?

Pour ma part, je tiens simplement à féliciter Sakana AI pour leur travail. Ils construisent un laboratoire de recherche en IA de classe mondiale à Tokyo. Non seulement ils font un excellent travail, mais ils posent aussi beaucoup des bonnes questions. Ils le font correctement, ils passent par les bons canaux, ils soumettent les documents, ils informent les personnes qu’elles vont évaluer des articles faits par l’IA.

Et à ma connaissance, c’est leur première tentative, et dès cette première tentative, l’un des articles parvient à respecter les directives pour être accepté, après quoi ils retirent l’article pour ne pas brouiller les pistes. C’était juste une expérience qu’ils ont menée. Brillamment fait, bien exécuté, tout simplement passionnant.

Sans oublier qu’ils rendent ces projets open source. Comme ils le disent, ils « démocratisent l’IA au Japon », c’est leur objectif, mais ce faisant, elle sera également disponible pour le monde entier. Et je suis sûr que l’IA contribuant de manière significative à la science, au savoir humain, est quelque chose qui profitera à tous, quelque chose dont tout le monde sera heureux. Eh bien, peut-être pas une personne – Jürgen Schmidhuber pourrait ne pas être content de cela.

Merci beaucoup d’avoir lu cet article.

Featured image by Hal Gatewood on Unsplash