ARC AGI 2 : Le Prix d’un Million de Dollars pour l’AGI et le Nouveau Benchmark

ARC AGI 2 : Le Prix d’un Million de Dollars pour l’AGI

Le benchmark ARC AGI est de retour avec une nouvelle version encore plus ambitieuse, incluant un prix d’un million de dollars pour 2025. Cette nouvelle édition présente un ensemble complètement renouvelé de questions qui mettent en difficulté même les modèles d’IA les plus avancés, mais que les humains peuvent résoudre sans problème.

Un benchmark plus résistant à la puissance de calcul

La particularité de cette nouvelle version est sa résistance accrue au « test time compute ». Un détail important à noter : le modèle GPT-4o dépense environ 200$ par tâche et n’atteint qu’un score inférieur à 5%. Contrairement à la version précédente, simplement augmenter les ressources de calcul ne permettra pas d’améliorer significativement les performances.

Dans la première version d’ARC AGI, nous avions observé une amélioration des scores lorsque davantage de ressources étaient allouées pendant l’exécution des tests. Bien que cela rendait le processus plus coûteux, les scores augmentaient proportionnellement. Ce n’est plus le cas avec ARC AGI 2.

Le grand prix et ses critères

Le grand prix sera attribué à celui qui obtiendra une précision de 85% avec un ratio d’efficacité d’environ 42 cents par tâche. Les contraintes sont donc doubles :

  1. Atteindre une haute précision sur cet ensemble de questions mis à jour
  2. Maintenir un coût de calcul par tâche relativement bas

Les concepteurs ont également ajouté de nouvelles dimensions pour rendre le test plus difficile. Actuellement, les modèles de langage de base (non raisonnants) obtiennent un score de zéro, tandis que les systèmes de raisonnement les plus avancés n’atteignent même pas 4%.

Comme le précisent les organisateurs, il s’agit d’un « benchmark AGI de frontière non saturé ».

Un test conçu pour les humains, difficile pour l’IA

Fait intéressant, chaque tâche d’ARC AGI 2 est résolue rapidement et facilement par au moins deux humains. Les organisateurs ont testé cela sur un panel de 400 personnes. Les puzzles semblent cibler spécifiquement les faiblesses des modèles de raisonnement et des LLM, tout en restant accessibles aux humains.

L’objectif d’ARC AGI 2 n’est pas de mettre en évidence des compétences surhumaines des LLM, mais plutôt d’exposer ce qui manque encore à l’IA : l’acquisition efficace de nouvelles compétences. Il ne s’agit pas de mémorisation de données ou de reconnaissance de motifs, mais de la capacité à acquérir de nouvelles compétences pendant la résolution des problèmes.

Les capacités testées

Le benchmark met à l’épreuve plusieurs capacités fondamentales :

  • L’interprétation symbolique : comprendre que des figures peuvent avoir une signification au-delà de leur simple apparence
  • Le raisonnement compositionnel : combiner différentes règles ou concepts
  • L’application contextuelle de règles : appliquer des règles différemment selon le contexte

Exemples de puzzles

Le puzzle quotidien

J’ai eu l’occasion d’essayer le puzzle quotidien d’ARC AGI 2. Il s’agissait d’un exercice chronométré où il fallait comprendre comment des formes colorées se déplaçaient dans une grille. Après quelques tentatives, j’ai compris que les éléments du haut se déplaçaient d’une case vers la gauche, tandis que ceux du bas se déplaçaient d’une case vers la droite. Une fois cette règle identifiée, j’ai pu colorier correctement la grille de sortie.

L’ensemble d’entraînement public

J’ai également essayé l’ensemble d’entraînement public V2, qui proposait des puzzles de difficulté croissante :

  1. Puzzle facile : Il fallait comprendre comment un motif de base 2×2 se répétait et se transformait pour former une grille 6×6, avec des rotations et des symétries spécifiques.

  2. Puzzle difficile : Ce puzzle impliquait des règles de traduction où différentes couleurs suivaient des motifs de répétition spécifiques (par exemple, « quatre bleus » se traduisaient par « un bleu tous les quatre espaces »).

Ces puzzles semblent simples pour les humains une fois que l’on comprend le modèle, mais ils posent un véritable défi aux modèles d’IA actuels.

L’importance de l’efficacité

Un aspect crucial de ce nouveau benchmark est qu’il ne mesure plus uniquement la précision, mais aussi l’efficacité. Le tableau des scores suit désormais également le coût de la performance. Cela pose une question intéressante : est-il juste de limiter le temps que l’IA peut consacrer à réfléchir à un problème ?

Bien que l’efficacité des modèles s’améliore avec le temps, cette métrique supplémentaire introduit une nouvelle dimension d’évaluation qui pourrait favoriser des approches plus élégantes plutôt que le simple recours à une puissance de calcul brute.

Structure des prix et incitations

Les organisateurs ont restructuré les prix pour encourager les avancées conceptuelles plutôt que la simple amélioration des scores :

  • 75 000 $ pour la contribution conceptuelle la plus significative
  • 50 000 $ pour le score le plus élevé
  • Le grand prix a été augmenté à 700 000 $

Cette structure vise à stimuler l’innovation et à encourager de nouvelles approches plutôt que l’optimisation de techniques existantes.

Le tableau des scores actuel

Voici où en sont les performances actuelles :

  • Panel humain : 100% (chaque question a été résolue par au moins deux personnes)
  • GPT-4o avec Chain of Thought et synthèse : 4% à 200$ par tâche
  • Claude 3 Opus High Architects (vainqueur du prix ARC 2024) : 2,5%
  • DeepSeek R1 (modèle open source chinois) : 1,3% à seulement 8 cents par tâche

Il est intéressant de noter que le modèle d’IA ouvert le mieux classé n’atteint que 1,7%, ce qui laisse une marge d’amélioration considérable pour atteindre les 85% nécessaires pour le grand prix.

Prédictions du marché

Sur la plateforme de prédiction Manifold Market, les parieurs estiment qu’il y a :
– 27% de chances que quelqu’un remporte le grand prix ARC AGI d’ici fin 2025
– 8% de chances que quelqu’un atteigne un score de 70% ou plus sur ARC AGI 2 dans les 3 mois suivant sa sortie

Approches innovantes

Certains chercheurs explorent déjà des approches novatrices. Isaac Leo, docteur en apprentissage automatique et ancien étudiant en informatique et physique au MIT, a présenté une approche appelée « ARC AGI sans pré-entraînement ». Cette méthode utilise uniquement la descente de gradient au moment de l’inférence sur le puzzle cible, sans pré-entraînement ni ensembles de données, et résout 20% de l’ensemble d’évaluation.

Les organisateurs du prix ARC eux-mêmes encouragent ces innovations, l’objectif étant que quelqu’un trouve effectivement une solution. François Chollet, l’un des organisateurs, donne même quelques indices sur ce qu’il considère comme la bonne approche.

Un aspect important du concours est que toutes les solutions doivent être open source, permettant ainsi à la communauté entière de bénéficier des découvertes réalisées.

Conclusion

Le benchmark ARC AGI 2 représente une évolution significative dans l’évaluation des capacités d’intelligence artificielle générale. En limitant l’utilisation de la puissance de calcul brute et en se concentrant sur des tâches qui nécessitent une véritable compréhension et adaptation, il pousse les chercheurs à développer des approches plus efficaces et plus proches du raisonnement humain.

Que pensez-vous de cette nouvelle restriction de 42 cents par tâche ? Est-ce une contrainte raisonnable ? Le test semble bien conçu pour stimuler l’innovation et encourager un effort collectif open source pour faire progresser le domaine de l’IA.

Je vous encourage à essayer vous-même les puzzles quotidiens sur le site d’ARC AGI 2 et à partager votre expérience. Qui sait, peut-être que vos idées contribueront à la prochaine percée dans ce domaine passionnant !

Featured image by SpaceX on Unsplash