La Loi de Moore pour les Agents IA : Les Capacités Doublent Tous les Trois Mois

La Loi de Moore pour les Agents IA : Les Capacités Doublent Tous les Trois Mois

Introduction : La Transformation Agentique en Cours

Nous assistons actuellement à une transformation majeure dans le domaine de l’intelligence artificielle, une transformation que l’on pourrait qualifier d’ »agentique ». Cette évolution mènera probablement à l’automatisation d’une grande partie des tâches intellectuelles actuelles par des agents IA. La question cruciale que se posent les entreprises qui souhaitent adopter et tester leurs premiers agents IA est simple : quelles sont leurs capacités réelles ? Quels types de tâches spécifiques peuvent-ils accomplir ? Et comment les intégrer dans les flux de travail existants ?

Mais derrière ces interrogations pratiques se cache une réalité plus complexe : ces agents s’améliorent à une vitesse fulgurante, si bien que les systèmes conçus aujourd’hui pour les utiliser pourraient devenir obsolètes en quelques mois seulement, à mesure que leurs capacités augmentent. Les entreprises doivent donc non seulement s’adapter aux capacités actuelles des agents, mais aussi planifier pour un avenir à la fois imprévisible et inévitable.

Qu’est-ce que la Loi de Moore ?

Avant d’aborder la loi de Moore appliquée aux agents IA, rappelons ce qu’est la loi de Moore originale. Gordon Moore, cofondateur d’Intel, avait remarqué dans les années 60 que le nombre de transistors sur une puce informatique doublait à un rythme relativement constant, environ tous les deux ans, tandis que le prix restait stable. Cette observation est devenue un point de référence pour mesurer le progrès technologique.

Aujourd’hui, chaque fois qu’une technologie connaît un rythme de changement constant et rapide, nous la comparons inévitablement à la loi de Moore.

La Recherche sur les Capacités des Agents IA

Méthodologie et Approche

Une étude récente publiée par Meter, une organisation à but non lucratif basée à Berkeley, intitulée « Measuring AI Ability to Complete Long Tasks » (Mesurer la capacité de l’IA à accomplir des tâches longues), apporte un éclairage fascinant sur cette question.

Les chercheurs ont créé un ensemble de 170 tâches du monde réel, couvrant la programmation, la cybersécurité, le raisonnement général et l’apprentissage automatique. Ils ont ensuite établi une référence humaine en déterminant le temps nécessaire à un programmeur expert pour accomplir chaque tâche. Ils ont appelé cette mesure l’ »horizon de temps d’achèvement de la tâche », partant du principe que le temps nécessaire à un expert humain pour accomplir une tâche est un bon indicateur de sa difficulté.

Divers modèles d’IA, depuis GPT-2 d’OpenAI jusqu’à Claude 3.7 Sonnet d’Anthropic, ont été testés en prenant le contrôle d’un agent de codage et en étant confrontés à cette liste de tâches. L’objectif était de déterminer à quel moment chaque modèle tomberait en dessous d’un taux de réussite de 50%.

Résultats Surprenants

Les résultats montrent un rythme d’avancement remarquablement constant, d’où la comparaison avec la loi de Moore. Les chercheurs écrivent : « Nous constatons une sorte de loi de Moore pour les agents IA : la longueur des tâches que l’IA peut accomplir double environ tous les 7 mois. »

Pour donner quelques chiffres concrets :
– GPT-2, sorti en 2019, pouvait accomplir une tâche qui prendrait environ 2 secondes à un programmeur expert, mais échouait pour des tâches plus complexes.
– GPT-4, sorti en 2023, pouvait réussir des tâches qu’un programmeur humain mettrait 4 minutes à accomplir.
– Claude 3.7 Sonnet peut désormais accomplir des tâches qui prendraient environ une heure à un humain, avec une précision de 50%.

Si l’on regarde cette courbe de croissance sur une échelle linéaire (plutôt que logarithmique), on constate à quel point la progression est dramatiquement exponentielle.

Les chercheurs ont également testé O3 Mini d’OpenAI et Deepseeker 1, mais ont constaté qu’ils étaient moins performants que Claude 3.7 Sonnet et ont donc décidé de les exclure des données.

Vérification de la Tendance

Pour vérifier cette tendance, l’équipe a mené un test similaire en utilisant des questions du benchmark de codage standard SWEBench. Ils ont trouvé des résultats cohérents remontant à la sortie de GPT-4, avec un doublement des capacités tous les 70 jours.

Bien que l’incertitude associée à ces tâches soit assez grande, les chercheurs ont commenté : « Même si les mesures absolues sont erronées d’un facteur 10, la tendance prédit qu’en moins d’une décennie, nous verrons des agents IA capables d’accomplir indépendamment une grande partie des tâches logicielles qui prennent actuellement aux humains des jours ou des semaines. »

En isolant uniquement les modèles les plus récents, les chercheurs ont également constaté que le rythme d’amélioration s’est accéléré pour les modèles créés depuis l’année dernière : les doublements de capacité se produisent désormais tous les 3 mois.

Dans un résumé de leurs conclusions, les chercheurs ont écrit : « Nous sommes assez confiants dans la tendance approximative de 1 à 4 doublements de la longueur d’horizon par an. C’est rapide. Des mesures comme celles-ci aident à concrétiser la notion de degrés d’autonomie et nous permettent de quantifier quand les capacités de l’IA pourront dépasser des seuils spécifiques utiles ou dangereux. »

Réactions et Implications

Cette étude a généré énormément de discussions, avec plus de 4 millions de vues et environ un millier de personnes qui l’ont partagée ou commentée.

Pour beaucoup, il s’agissait des données concrètes dont ils avaient besoin pour commencer à envisager sérieusement l’IA générale (AGI). La chercheuse Amy Deng a écrit : « Je ne croyais pas au progrès exponentiel de l’IA avant de travailler sur cet article, mais je croyais aux statistiques et à la méthodologie, et à une ligne droite sur un graphique à échelle logarithmique. Maintenant, je vis et respire le fait que le travail d’une journée sera automatisable d’ici fin 2027 et que l’AGI arrive. »

Le professeur Ethan Malik a émis des réserves sur la méthodologie, mais a reconnu que le résultat est très significatif : « Un nouvel article montre que les agents IA s’améliorent rapidement pour les tâches longues, mais ils ne sont pas encore fiables. » Il a ajouté : « Cela dit, cela semble significatif : plus de 80% des exécutions réussies coûtent moins de 10% de ce qu’il en coûterait à un ingénieur logiciel humain de niveau 4 pour effectuer la même tâche. »

La critique spécifique d’Ethan concerne le seuil de réussite fixé à seulement 50%, ce qui ne répondrait pas aux exigences des entreprises. Les chercheurs ont en fait abordé ce point dans l’article, choisissant un taux de réussite de 50% car il était le plus utile pour filtrer les petites variations dans les données. Le co-auteur Lawrence Chan a commenté : « Si vous choisissez des seuils très bas ou très élevés, le fait de supprimer ou d’ajouter une seule tâche réussie ou échouée, respectivement, modifie considérablement vos estimations. »

Lors de tests supplémentaires, les chercheurs ont constaté que l’augmentation du seuil de fiabilité de 50 à 80% réduisait l’horizon temporel moyen d’un facteur cinq, mais le rythme de doublement dans la tendance restait très similaire. L’article ne cherche donc pas vraiment à déterminer avec précision la qualité actuelle des agents, mais plutôt à mesurer la tendance d’amélioration.

L’Importance Pratique de Cette Tendance

Ce qui ressort immédiatement, c’est que la constatation spécifique du temps pendant lequel les agents peuvent travailler n’est pas si utile en soi. Ce qui est vraiment utile, surtout d’un point de vue pratique pour les entreprises qui essaient de définir leur stratégie en matière d’agents IA, c’est que nous observons un doublement de cette capacité au plus tard tous les 7 mois, et maintenant plutôt tous les 3 mois.

Cela signifie que d’ici votre prochain rapport trimestriel, les capacités des agents avec lesquels vous ne travaillez pas encore auront doublé. Dans deux trimestres, les agents que vous n’avez pas encore embauchés seront quatre fois plus capables, et ainsi de suite – si cette tendance se maintient, bien sûr.

Questions et Préoccupations

Qu’en est-il de la préoccupation selon laquelle les benchmarks de codage traditionnels sont essentiellement inutiles pour mesurer les améliorations supplémentaires par rapport à l’état de l’art actuel ? Les chercheurs ont en fait commenté qu’ils « pensent que ces résultats aident à résoudre la contradiction apparente entre les performances surhumaines sur de nombreux benchmarks et les observations empiriques courantes selon lesquelles les modèles ne semblent pas être robustement utiles pour automatiser des parties du travail quotidien des gens. Les meilleurs modèles actuels, comme Claude 3.7 Sonnet, sont capables d’accomplir certaines tâches qui peuvent prendre des heures même à des humains experts, mais ne peuvent accomplir de manière fiable que des tâches d’une durée maximale de quelques minutes. »

Joshua Gans, professeur de gestion à l’Université de Toronto qui a écrit sur l’économie de l’IA, s’est demandé s’il est correct de supposer que cette tendance se maintiendra. Il a commenté : « Les extrapolations sont tentantes, mais il y a encore tellement de choses que nous ne savons pas sur la façon dont l’IA sera réellement utilisée pour que ces prévisions soient significatives. »

Les chercheurs eux-mêmes se sont interrogés sur la durée probable de cette tendance. La loi de Moore s’est maintenue pour un doublement du nombre de transistors sur une puce informatique de pointe pendant plus de quatre décennies à partir des années 1970. Cependant, la tendance a ralenti au début des années 2010, lorsque les concepteurs de puces se sont heurtés à des limitations physiques liées à la structure atomique, couplées à l’accent mis par l’industrie des puces sur l’efficacité énergétique plutôt que sur la puissance brute.

Les chercheurs ont établi une comparaison avec les contraintes de l’IA, notamment les limites de la puissance de calcul, écrivant : « Il n’est pas clair s’il existe une capacité suffisante pour étendre la puissance de calcul d’entraînement ou d’inférence de plusieurs ordres de grandeur supplémentaires dans les 5 prochaines années. »

En gros, les chercheurs se contentent de présenter les données qu’ils ont trouvées, sans extrapoler excessivement ce qu’elles pourraient signifier ou combien de temps elles pourraient continuer. Comme nous, ils ne sont pas sûrs de la façon dont cela va se dérouler.

Cela dit, ils soulignent également que les avancées dans les systèmes multi-agents, les améliorations dans l’entraînement des agents et des algorithmes d’entraînement plus efficaces pourraient tous contribuer à renforcer cette tendance.

Réflexions Finales

Alors que la tendance naturelle face à ce type de recherche est d’essayer d’y trouver des failles et de mettre en garde contre un optimisme excessif, il vaut également la peine, à ce stade, de prendre du recul et de réfléchir à l’autre côté de la médaille : que se passerait-il si la tendance se maintenait ?

Le scientifique Robin Hansen a écrit : « Donc environ 8 ans jusqu’à ce qu’ils puissent faire des projets d’un an. » Le point implicite est bien sûr que même si nous n’obtenons qu’une fraction de cela, il s’agit d’une tendance qui change la civilisation.

Prochainement, les chercheurs vont explorer comment l’association d’un agent IA avec un travailleur humain se compare à un travailleur humain seul, ce qui devrait être également très intéressant.

Pour l’instant, même si vous êtes sceptique quant à la tendance à long terme, même si vous remettez en question l’efficacité des agents actuels, il semble assez clair que les capacités dont vous doutez s’améliorent à un rythme extraordinaire.

Les humains sont historiquement très mauvais pour penser en termes d’exponentielles. Il nous est très difficile de nous mettre mentalement dans un état d’esprit où nous pouvons prendre du recul et comprendre ce rythme de changement. Nous vivons, grandissons et apprenons selon des chronologies linéaires. Nous ne sommes pas câblés pour l’exponentiel. Et pourtant, il semble que c’est bien l’exponentiel que nous avons ici.

Si vous n’avez pas encore commencé à élaborer votre stratégie en matière d’agents IA, eh bien, le meilleur moment était hier, mais le deuxième meilleur moment, c’est aujourd’hui.

Featured image by Shahadat Rahman on Unsplash