L’Accélération Rapide des Performances des Agents IA : Une Nouvelle Loi de Moore ?

L’Accélération Rapide des Performances des Agents IA : Une Nouvelle Loi de Moore ?

Aujourd’hui, nous allons examiner les dernières données qui démontrent que les performances des agents d’intelligence artificielle s’accélèrent, et ce, à un rythme particulièrement rapide.

La nouvelle loi de Moore pour les agents IA

Il y a quelques mois, nous avions discuté d’une recherche qui révélait que les performances de l’IA doublaient approximativement tous les 7 mois. Plus précisément, cette recherche portait sur la durée des tâches que l’IA pouvait accomplir avec un taux de réussite de 50%. Bien qu’il y ait plusieurs façons d’interpréter ces données, l’idée fondamentale est qu’une bonne méthode pour comprendre les capacités des agents IA consiste à évaluer la complexité des tâches qu’ils peuvent réaliser, et une façon efficace d’estimer cette complexité est de mesurer le temps nécessaire pour accomplir ces tâches.

Le groupe de recherche Metr a découvert que cette durée doublait environ tous les 7 mois. On peut observer ce phénomène sur le graphique qui remonte jusqu’à GPT-2 et va jusqu’à Claude 3.7 Sonnet. Cette découverte a donné naissance au titre accrocheur d’une « nouvelle loi de Moore pour les agents IA ».

L’un des aspects les plus intrigants de cette recherche était la constatation que récemment, le rythme semblait s’accélérer. La trajectoire n’était plus sur une courbe de doublement tous les 7 mois, mais plutôt tous les 4 mois environ.

Une accélération confirmée par de nouvelles données

AI Digest a maintenant étendu cette recherche en ajoutant les agents O3 et O4 Mini au graphique, et l’on observe une nette accentuation de la courbe. AI Digest écrit : « Ces nouveaux points de données correspondent beaucoup mieux à la tendance 2024-2025 qu’à la tendance plus lente de 2019 à 2025. Il semble vraiment que les horizons temporels des agents de codage doublent environ tous les 4 mois. »

Selon les tests d’AI Digest, O4 Mini peut accomplir des tâches qui prendraient environ 1 heure et demie à un humain, tandis qu’O3 peut mener à bien des travaux qui nécessiteraient 1,7 heure.

En revenant à l’étude initiale, les chercheurs avaient noté un point d’inflexion. Alors que GPT-2, GPT-3 et GPT-3.5 étaient médiocres en tant qu’agents, capables à peine de réaliser une tâche qui prendrait une minute ou deux à un humain, quelque part autour de la sortie de GPT-4O et Claude 3.5 Sonnet, il semblait y avoir une réelle accélération dans la vitesse à laquelle les performances doublaient.

C’est cette nouvelle courbe que O3 et O4 Mini suivent beaucoup plus précisément. Bien que nous travaillions avec un très petit nombre de points de données et qu’il y ait de nombreuses raisons de s’interroger sur la méthodologie exacte, ce que montre le positionnement d’O4 Mini et O3, c’est que cette accélération et le passage d’un doublement d’environ 7 mois à 3-4 mois, que nous avons commencé à observer avec Claude 3.7 Sonnet et O1, n’étaient pas des valeurs aberrantes. En fait, c’est la nouvelle tendance, confirmée par O4 Mini et O3.

Implications futures de cette accélération

Si cette tendance plus rapide se poursuit, les agents pourraient atteindre des capacités pour des tâches d’un mois dès 2027. Cependant, en se basant uniquement sur les données d’une année, l’estimation est moins robuste. Le rythme de progression pourrait ralentir… ou s’accélérer davantage. Étant donné que la tendance s’est déjà accélérée, elle pourrait suivre une trajectoire de croissance plus rapide que l’exponentielle.

Cela correspond intuitivement à l’idée qu’il pourrait y avoir un écart plus important dans les compétences requises entre des tâches d’une et deux semaines qu’entre des tâches d’un et deux ans. De plus, à mesure que les IA s’améliorent, elles seront de plus en plus utiles pour développer des IA encore plus performantes. Cela pourrait conduire à une croissance super-exponentielle des horizons temporels de l’IA.

Des systèmes d’IA de plus en plus capables pourraient déclencher un volant d’accélération : des agents accélérant la création d’agents plus performants, qui à leur tour accélèrent la création d’agents encore plus performants. À partir de là, les capacités des agents pourraient monter en flèche au-delà des capacités humaines dans la recherche en IA et dans de nombreux autres domaines. Les effets seraient transformateurs.

Si l’automatisation de la recherche en IA conduit à des progrès aussi rapides, l’augmentation rapide de l’horizon temporel des systèmes d’IA pourrait finir par être l’une des tendances les plus importantes de l’histoire humaine.

CryptoJourney223 a souligné à quel point il est difficile pour les humains de comprendre les exponentielles, écrivant : « L’esprit humain ne peut même pas comprendre à quoi cela ressemblera dans six mois. »

Benjamin Todd, fondateur de 80,000 Hours, a osé faire quelques prédictions, déclarant : « Cette tendance plus rapide est probablement due au nouveau paradigme des modèles de raisonnement par RL et des agents qui a débuté en 2024. Je parierais sur la poursuite d’une tendance plus rapide pour au moins l’année prochaine, atteignant des agents capables de réaliser des tâches logicielles d’une journée ou de 8 heures en 2026. »

Bien que ce ne soit pas hyper-scientifique, je pense que cela reflète intuitivement ce que nous tous, qui expérimentons l’IA et les agents, ressentons.

Des preuves concrètes de l’accélération des capacités

Y a-t-il des points de données concrets qui suggèrent que les capacités de l’IA augmentent aussi rapidement qu’elles le semblent ? Examinons O3.

Lorsque le nouveau modèle a été dévoilé en décembre, l’un des éléments les plus notables était un résultat sans précédent au test ARC AGI. Un défi, cependant, était que le benchmark publié en décembre avait été réalisé en utilisant une quantité considérable, voire stupéfiante, de puissance de calcul : 3 000 dollars par tâche, ce qui rendait l’ensemble du benchmark coûteux d’au moins un million de dollars.

La version commerciale d’O3 n’utilise évidemment pas ces paramètres d’inférence, ce qui a suscité des questions ces dernières semaines sur les performances réelles d’O3 en pratique. L’équipe d’ARC AGI a donc décidé de refaire le test en utilisant le modèle publié publiquement.

Ce test a été achevé plus tôt cette semaine, et l’équipe a été agréablement surprise. Mike Nuke, l’un des cofondateurs du prix ARC, a annoncé les résultats. Sa principale conclusion était qu’O3 Medium est le système de raisonnement IA leader du secteur avec une marge importante – deux fois le score et 1/120e du coût par rapport au système de chaîne de pensée (chain of thought) suivant, selon les mesures de l’ensemble semi-privé ARV1.

Nuke a poursuivi : « Lorsque nous avons testé la prévisualisation d’O3 en décembre 2024, j’ai dit que votre intuition sur les capacités de l’IA devrait être mise à jour. Ma question clé pour O3 publié était donc : est-il plus proche d’O1, légèrement meilleur qu’un LLM pur sur des tâches nouvelles, ou plus proche de la prévisualisation d’O3, avec une nouvelle capacité qualitative à résoudre des problèmes en dehors des données d’entraînement ? Nos données de nouveau test suggèrent qu’O3 Medium, c’est-à-dire la version commerciale, possède la plupart des nouvelles capacités qualitatives que nous avons observées dans la prévisualisation d’O3, à un coût considérablement inférieur. Bien que la précision d’O3 Medium soit strictement inférieure à celle de la prévisualisation d’O3, OpenAI a fait un excellent travail d’optimisation de la précision et du coût pour O3. Vous ne pouvez acheter nulle part ailleurs aujourd’hui le niveau de capacité de raisonnement IA d’O3. »

Nuke a également suggéré que les performances impliquent des changements architecturaux sérieux sous le capot, ajoutant : « O3 Medium est si bon sur ARV1 pour son coût qu’il est difficile de l’expliquer comme un simple système auto-régressif de chaîne de pensée comme O1. Les données suggèrent que quelque chose de plus se passe. Bien qu’O3 ne fasse certainement pas d’échantillonnage parallèle massif, lent et coûteux comme la prévisualisation d’O3, il existe des preuves que la précision d’O3 est plus qu’une simple fonction du modèle et du nombre de jetons de réflexion, c’est-à-dire du temps passé à réfléchir. Il y a un facteur X supplémentaire, bien que ni Mike ni nous ne sachions ce qu’est ce facteur X. »

C’est un résultat assez important. Beaucoup s’attendaient à ce que la version commerciale, sans inférence supplémentaire, ne représente pas un si grand bond par rapport à O1. Et pourtant, le modèle constitue un changement radical en termes de fonctionnalité, du moins selon les mesures du test ARC AGI.

Réactions et analyses de la communauté

Les gens ont rapidement commencé à examiner les détails. Machine Learning Street Talk a écrit : « Les expériences que nous attendions tous pour O3 et O4 Mini sur ARC et ARC V2. Ils sont loin des résultats de décembre 24, mais c’est toujours un excellent résultat. Ils ont obtenu pratiquement zéro sur ARCV2 et, fait intéressant, ils étaient plus susceptibles d’être corrects s’ils donnaient une réponse en moins de jetons. Réfléchir plus longtemps n’équivaut pas à une meilleure réponse. »

Renforçant cette idée, Smokeaway a commenté : « O3 et O4 Mini indiquent que réfléchir plus longtemps ne mène pas toujours à la bonne réponse. Parfois, le chemin le plus court est tout ce dont vous avez besoin. »

Adoptant une approche un peu plus philosophique, Dan Mack a ajouté : « Si vous avez passé du temps à introspection sur le fonctionnement de votre esprit, vous savez que c’est vrai. »

Flowers a fourni un commentaire méta sur les récentes publications d’OpenAI : « OpenAI lance le grand 4.5 original non optimisé, la foule dit ‘trop grand, trop cher, OpenAI est cupide’. OpenAI lance O3 optimisé moins cher pour que plus de gens puissent l’utiliser, la foule dit ‘ce n’est pas l’original, nous voulons celui qui est 100 fois plus cher’. »

Le développeur Daniel Sedolf écrit : « Ce que les gens ne comprennent pas, c’est que vous pouvez atteindre les performances de l’O3 de décembre en effectuant simplement un échantillonnage extensif, par exemple en générant 64 sorties pour une seule question, puis en sélectionnant la meilleure en utilisant O3 lui-même. C’est essentiellement ainsi qu’ils obtiennent ces chiffres incroyables en décembre. O3 Pro sera fondamentalement cela. » Ce qui, si vous êtes un auditeur régulier, ressemble beaucoup à la théorie du Docteur Strange.

L’accélération des modèles open-source

Une autre preuve claire que les tendances de l’IA s’accélèrent est la performance des modèles open-source. Nous avons vu une multitude de modèles très performants ces derniers mois, formés avec des budgets limités, DeepSeek étant bien sûr l’exemple le plus emblématique de ce phénomène.

Maintenant, une équipe de deux personnes de Corée du Sud pourrait avoir relevé la barre avec leur nouveau modèle vocal. Hier, Nari Labs a publié un petit modèle vocal de 1,6 milliard de paramètres appelé DIA.

Le cofondateur Toby Kim a écrit : « Deux étudiants de premier cycle, dont l’un est encore dans l’armée, zéro financement, un objectif ridicule : construire un modèle de synthèse vocale qui rivalise avec Notebook LM Podcast, 11 Labs Studio et Sesame CSM. Non, nous n’étions pas des experts en IA au départ. Tout a commencé lorsque nous sommes tombés amoureux de la fonctionnalité podcast de Notebook LM lors de sa sortie l’année dernière. Mais nous voulions plus : plus de contrôle sur les voix, plus de liberté dans le script. Nous avons essayé toutes les API TTS sur le marché, aucune ne sonnait comme une véritable conversation humaine. »

Voici ce qu’ils ont produit, un dialogue comme celui-ci : « Vous obtenez également un contrôle total sur les scripts et les voix. » « Wow, incroyable, essayez-le maintenant sur GitHub ou Hugging Face. » « Comment se compare-t-il à 11 Labs Studio et Sesame 1B ? » « Eh bien, écoutez et décidez par vous-même. » « DIA a été construit par une minuscule équipe de deux personnes sans financement. » « Whoa, vraiment ? » « C’est assez fou, hein ? » « Les progrès de l’IA open source sont complètement fous. » « Oui, même cette conversation a été générée par l’IA. »

L’équipe a utilisé le programme Google TPU Research Cloud pour entraîner leur modèle gratuitement, et le résultat est un modèle qui peut être exécuté sur du matériel grand public. Il peut gérer plusieurs voix, le clonage vocal et des sons non verbaux comme le rire, la toux et les soupirs.

En gros, le modèle semble avoir toutes les caractéristiques naturalistes du modèle vocal de Sesame qui enthousiasmait tant les gens, mais il a été développé en utilisant des ressources gratuites par une paire de développeurs amateurs.

VentureBe a été assez impressionné après avoir testé le modèle, écrivant : « Même avec un contenu rythmiquement complexe comme les paroles de rap, DIA génère un discours de style performance fluide qui maintient le tempo. Cela contraste avec les sorties plus monotones et disjointes de 11 Labs et du modèle Sesame 1B. »

L’enthousiasme de la communauté pour DIA

Les gens sont enthousiastes à ce sujet. DD Doss de Menllo a écrit : « Nous venons de résoudre la synthèse vocale IA. Ce modèle peut simuler une émotion parfaite, crier et montrer une véritable alarme. Il bat clairement 11 Labs et Sesame. Il ne fait que 1,6 milliard de paramètres, diffuse en temps réel sur un seul GPU et a été créé par une équipe d’une personne et demie en Corée. »

Ethan Mllik écrit : « Encore un de ces petits moments choquants de l’IA. Ce clip sonore a été généré en 46 secondes sur mon PC domestique à partir du script ci-dessous, juste le texte. Nari Labs DIA produit l’une des meilleures voix expressives d’IA que j’ai vues, et c’est open source et créé par deux étudiants sans financement. » « Est-ce un dragon ? Oh mon Dieu, que faisons-nous, que faisons-nous ? » « Attendez, laissez-moi vérifier le manuel. » « Il crache du feu, tout le monde court ! » « Il y a une baguette d’exorcisme dans la trousse de premiers secours, prenez-la. » « Euh, je pense que je l’ai ramenée à la maison pour m’occuper de mon problème de mouches des fruits. » « Alors nous ferions mieux de courir. »

Conclusion : Une accélération inévitable

Le point de tout cela, en revenant à notre point de départ, est que, que vous essayiez de comprendre à travers des benchmarks, de nouvelles lois de Moore, des modèles ou simplement les nouveaux modèles qui sont publiés et changent votre capacité à faire des choses avec l’IA, tout pointe dans la même direction et dit la même chose : les capacités de l’IA et des agents augmentent, et la vitesse à laquelle elles augmentent s’accélère également.

Je vous laisse sur cette réflexion. Merci de votre écoute ou de votre visionnage, comme toujours, et jusqu’à la prochaine fois, paix.