Quel impact pour la fenêtre de contexte de 10 millions de tokens de Llama 4 ?
Meta vient de dévoiler sa nouvelle famille de modèles Llama 4, accompagnée d’une fenêtre de contexte impressionnante de 10 millions de tokens. Mais quelle est réellement l’importance de cette avancée ? Plongeons dans une analyse détaillée de cette annonce majeure.
La nouvelle famille Llama 4 : une architecture révolutionnaire
Vendredi dernier, Meta a révélé sa nouvelle famille de modèles Llama 4. Comme à chaque annonce de Meta, il y a beaucoup à explorer. Ces nouveaux modèles présentent une architecture entièrement repensée, incluant pour la première fois des fonctionnalités multimodales.
Ces modèles sont les premiers à utiliser l’architecture « mixture of experts » (mélange d’experts), récemment observée dans DeepSeek. Cette architecture permet aux modèles d’accéder à un sous-ensemble de paramètres au sein d’un modèle plus large, rendant l’inférence plus efficace.
La famille Llama 4 comprend trois modèles différents :
-
Llama 4 Scout : un modèle de 17 milliards de paramètres avec 16 experts. Meta affirme qu’il s’agit du « meilleur modèle multimodal au monde dans sa catégorie », plus puissant que tous les modèles Llama des générations précédentes, tout en tenant sur une seule carte graphique NVIDIA H100.
-
Llama 4 Maverick : possède les mêmes 17 milliards de paramètres actifs mais inclut 128 experts, ce qui représente un total d’environ 400 milliards de paramètres. Meta déclare que ce modèle est le « meilleur modèle multimodal dans sa catégorie », surpassant GPT-4o et Gemini 2.0 Flash sur un large éventail de benchmarks, tout en obtenant des résultats comparables au nouveau DeepSeek V3 sur le raisonnement et le codage, avec moins de la moitié des paramètres actifs.
-
Llama 4 Behemoth : encore en phase d’entraînement, il devrait comporter 288 milliards de paramètres actifs avec 16 experts, pour un total de deux billions (2000 milliards) de paramètres.
Meta adopte ici la même stratégie que pour Llama 3 : publier d’abord quelques modèles plus petits pour susciter l’enthousiasme, puis sortir la version la plus imposante quelques mois plus tard. Avec Llama 4 Behemoth, ce sera la première fois qu’un modèle atteindra officiellement les billions de paramètres, et le premier modèle de type « mixture of experts » de cette taille. Nous ne savons pas encore vraiment comment ces dimensions affecteront les performances.
Coûts et performances : où se situe Llama 4 ?
En termes de coûts, Llama 4 semble très compétitif. Le fournisseur de services d’inférence Groq propose déjà le modèle hébergé :
– Scout coûte 11 cents par million de tokens d’entrée et 34 cents par million de tokens de sortie
– Maverick est facturé 50 cents et 77 cents par million pour l’entrée et la sortie respectivement
Ces deux modèles sont moins chers que DeepSeek, Gemini 2.0 Flash et QWEN-32B de Qwen.
Concernant les benchmarks, les nouveaux modèles semblent comparables à leurs pairs. Scout surpasse des modèles comme Mistral 3.1, Gemini 2.0 Flash Light et Gemma 3 sur certains benchmarks, tandis que Maverick bat GPT-4o et Gemini 2.0 Flash sur la plupart des benchmarks de raisonnement multimodal. Il est important de noter qu’aucun de ces modèles n’est un véritable modèle de raisonnement utilisant le « chain of thought » ou le calcul en temps de test.
Le contexte troublant du lancement de Llama 4
Il est crucial de comprendre le contexte dans lequel Llama 4 fait son entrée. Il y a quelques mois, une fuite interne à l’entreprise affirmait que l’organisation GenAI de Meta était en « mode panique ». Le lanceur d’alerte écrivait :
« Tout a commencé avec DeepSeek V3, qui a rendu Llama 4 déjà dépassé sur les benchmarks. Pour ajouter l’insulte à l’injure, une entreprise chinoise inconnue avec un budget de formation de 5,5 millions de dollars… Les ingénieurs s’activent frénétiquement pour disséquer DeepSeek et copier tout ce qu’ils peuvent. La direction s’inquiète de justifier le coût massif de GenAI, ou comment faire face aux dirigeants quand chaque leader de GenAI gagne plus que ce qu’il en coûte pour entraîner DeepSeek V3 entièrement, et nous avons des dizaines de tels leaders. DeepSeek R1 a rendu les choses encore plus effrayantes… »
Suite à ces annonces, de nombreuses discussions ont émergé sur l’impression que cette sortie était précipitée, voire que quelque chose de plus néfaste se tramait.
Mencho a écrit : « Aïe, les benchmarks de Llama semblaient fous, mais quelque chose cloche ». Une fuite sur Reddit prétend que Meta a manipulé les résultats. Dans les 24 heures suivant l’annonce, alors que les gens commençaient à creuser, ils semblent avoir trouvé une différence assez importante entre ce que Meta prétendait et ce qui semblait être la réalité.
TechCrunch écrit : « Des chercheurs sur X ont observé des différences frappantes dans le comportement du Maverick téléchargeable publiquement par rapport au modèle hébergé sur LM Marina. La version LM Marina semble utiliser beaucoup d’émojis et donner des réponses incroyablement verbeuses. »
Encore plus préoccupant, un post Reddit d’une personne prétendant être ingénieur chez Meta affirmait : « Malgré des efforts répétés d’entraînement, les performances du modèle interne sont toujours inférieures aux benchmarks open source de pointe… La direction a suggéré de mélanger des ensembles de tests de divers benchmarks pendant le processus post-entraînement, visant à atteindre les objectifs à travers diverses métriques et à produire un résultat ‘présentable’. Ne pas atteindre cet objectif avant la date limite de fin avril entraînerait de graves conséquences. »
Suite à la sortie de Llama 4, de nombreux utilisateurs ont déjà signalé des résultats de tests réels extrêmement médiocres. La personne, affirmant être dans le milieu académique, a trouvé cette approche « totalement inacceptable » et a démissionné, demandant explicitement que son nom soit exclu du rapport technique de Llama 4. Le vice-président de l’IA chez Meta aurait également démissionné pour des raisons similaires.
De nombreuses personnes ont fait référence à ce post sans beaucoup de vérification. Bernie Techch a écrit : « Llama 4 a tellement forcé sur les benchmarks, complètement déconnecté de la réalité et de la pratique. »
Andrew Allen a résumé ainsi : « Meta vient de sortir Llama 4 et s’est classé deuxième sur LM Marina, battant GPT-4o et Groq, mais les utilisateurs le qualifient de ‘déchet’ et de ‘vaporware’. Déballons la plus grande controverse de benchmark de 2023 jusqu’à présent. Les chiffres semblent incroyables sur le papier : fenêtre de contexte de 10 millions de tokens, score Elo de 1417 sur LM Marina, le deuxième plus élevé, battant de nombreux modèles fermés de premier plan. Mais quelque chose ne colle pas quand les utilisateurs l’essaient réellement. »
Il a pointé un tweet de Harsh Varton qui écrit : « J’ai essayé Meta Llama 4 pour des tâches liées au codage, je l’ai trouvé super basique et presque inutile. »
DD Doss de Menlo Ventures écrit : « Llama 4 semble être en réalité un modèle médiocre pour le codage. Maximiser l’Elo sur LM Marina ne crée pas les meilleurs modèles. »
Andrew poursuit : « Le décalage est flagrant : sur le papier, deuxième plus haut sur le classement LM Marina ; en pratique, super basique et presque inutile pour le codage. Capacités révolutionnaires marketing ; réalité, difficultés avec la construction de base. L’allégation la plus grave : Meta aurait soumis un modèle différent pour les benchmarks que celui disponible publiquement. Cela soulève des questions majeures sur l’intégrité des benchmarks. »
Les rapports d’utilisateurs soulignent des échecs spécifiques :
– Gel lors de l’exécution locale sur Mac
– Faibles capacités de codage par rapport à Claude et GPT
– Incapacité à suivre les instructions de manière cohérente
– Qualité déclinante avec des contextes plus longs
De nombreux utilisateurs qualifient la fenêtre de contexte de 10 millions de tokens de « poudre aux yeux marketing » qui ne se traduit pas par de meilleures performances.
Andrew souligne également les points positifs :
– Rapide (512 tokens par seconde sur Groq)
– Rentable
– Capacités de vision améliorées par rapport à Llama 3
– Open source, permettant l’innovation communautaire
Il conclut : « Ce que cela révèle sur le développement de l’IA : les scores de benchmark ne sont pas égaux à l’utilité dans le monde réel. L’écart entre les performances en laboratoire et l’utilisation pratique s’élargit, et les utilisateurs valorisent de plus en plus la fiabilité par rapport aux spécifications brutes. »
La fenêtre de contexte de 10 millions de tokens : révolution ou illusion ?
Au-delà de toutes ces controverses, le grand point de discussion qui fait réfléchir tout le monde est que Llama 4 Scout dispose théoriquement d’une fenêtre de contexte de 10 millions de tokens. Jusqu’à présent, le développement par Google d’une fenêtre de contexte fonctionnelle d’un million de tokens pour leurs modèles Gemini était à la pointe de la technologie, cinq fois plus grande que celle des modèles de même classe d’OpenAI et Anthropic.
Les fenêtres de contexte ultra-longues sont cruciales pour diverses utilisations. Par exemple, pour les assistants de codage, plus la fenêtre de contexte est grande, plus l’assistant peut ingérer une base de code entière pour la comprendre d’un seul coup. Pour les agents, un contexte long permet d’accomplir des tâches beaucoup plus longues avant de perdre en cohérence.
Meta a démontré les performances avec un test de « recherche d’aiguille dans une botte de foin » sur 10 millions de lignes de code. Scout n’a pas connu un seul échec lors de leurs tests. Cependant, les benchmarks indépendants n’étaient pas aussi impressionnants.
La plupart des conversations ne portaient pas tant sur Meta et Llama 4 spécifiquement, mais sur les implications à mesure que la technologie s’améliore.
Marvin Aziz, community manager chez Lindy, a écrit : « Le RAG est mort. Pourquoi s’embêter avec une base de connaissances quand on peut fourrer 10 millions de tokens dans une fenêtre de contexte et en finir ? »
RAG (Retrieval Augmented Generation) fait référence au processus de connexion d’un LLM à une base de données ou une source de connaissances pour rechercher toute information dont il pourrait avoir besoin.
L’opinion opposée était tout aussi répandue. HL Hussein, concepteur d’évaluations d’IA, a écrit : « Les posts ‘RAG est mort’ sont ennuyeux. R est pour Retrieval (récupération) et AG est le LLM. Cela signifie que vous pensez que la récupération est morte ? Sérieusement ? Vous pensez que la recherche par mots-clés, le filtrage par métadonnées comme les dates et les utilisateurs, GP et autres filtrages sont morts ? Bonne chance sans récupération. »
Charles Fry ajoute : « ‘RAG est mort’ est aussi le genre de chose dite uniquement par quelqu’un qui n’a jamais exécuté d’inférence LLM lui-même, sans parler d’être responsable du coût et de la latence. »
De façon énigmatique, Swix écrit : « Opinion impopulaire en ce moment, mais la fenêtre de 10 millions de tokens de Llama 4 va enfin mettre fin au débat contexte long versus RAG, mais pas de la façon dont l’autre gars pense. »
Ils soulignent essentiellement que nous ne savons pas encore assez pour déclarer la fin du RAG ou vraiment comprendre comment les fenêtres de contexte long vont fonctionner.
Near Cyan a écrit : « Je n’ai pas joué avec la série Llama 4, mais ‘l’aiguille dans une botte de foin’ est lamentablement insuffisante pour connaître la force d’une fenêtre de contexte. Si vous voulez une aiguille dans une botte de foin, nous avons grep pour ça. » (grep est une commande Linux pour rechercher dans des bases de données)
Le co-fondateur d’OpenAI, Andrej Karpathy, se range dans la catégorie de ceux qui veulent y croire, ajoutant : « Ma réaction aussi en lisant tous les tweets ‘RAG est mort’ plus tôt aujourd’hui. Énorme optimisme que la fenêtre de contexte soit également utilisable en pratique pour résoudre de vrais problèmes et pas seulement en théorie. Ça pourrait très bien être vrai, je ne le sais juste pas encore avec certitude. »
L’enthousiasme des développeurs « vibe coders »
La communauté qui a montré le plus d’enthousiasme pour une fenêtre de contexte ultra-longue était celle des « vibe coders » (codeurs d’ambiance). Peter Levelvels, créateur de jeux Plain, a écrit : « C’est fou et ça rend enfin possible de ‘vibe coder’ jusqu’à des tailles de code gigantesques. La limite il y a quelques semaines était la fenêtre de contexte. L’IA se perdait une fois que votre jeu ou application ‘vibe codé’ devenait trop grand. Imaginez une IA avec perte de mémoire qui commence à casser des choses. Avec 10 millions de tokens, il n’y a pratiquement aucune limite. Vraiment énorme pour le vibe coding et un autre grand coup pour les éternels pessimistes. »
La consultante en IA Sasha Lei a ajouté : « À ce stade, vous pouvez jeter toute la documentation de plusieurs bibliothèques avec des exemples dans votre projet dans la fenêtre de contexte, et il gérera les tâches en une seule fois. À mon avis, le goulot d’étranglement se situe maintenant davantage du côté agentique. Ces systèmes doivent fonctionner sans que je les surveille. »
Il y avait néanmoins beaucoup de personnes tentant de tempérer l’enthousiasme en soulevant des problèmes pratiques liés à l’utilisation d’une fenêtre de contexte de 10 millions de tokens. Ils supposaient que le chargement d’autant de tokens serait douloureusement lent et se demandaient si un modèle de classe Gemini 2.0 Flash Light serait à la hauteur de la tâche de générer du code fonctionnel.
Le développeur Nick Dobos a réfuté : « Opinion paresseuse. Utilisez-le pour poser des questions et planifier, utilisez les modèles de haut niveau pour écrire le code réel. Pas difficile. »
Son point étant que même si le modèle n’est pas vraiment capable d’écrire du code ou même de développer un plan, simplement créer un aperçu d’une grande base de code pour une utilisation dans un autre LLM est une nouvelle fonctionnalité qui n’était pas accessible auparavant.
Perspectives stratégiques : au-delà des performances actuelles
Le co-fondateur de LinkedIn, Reed Hoffman, a adopté une approche moins combative, écrivant : « J’ai passé la journée à jouer avec Llama 4. Une des nombreuses choses intéressantes : la fenêtre de contexte massive est un changement de donne. Je ne pense pas que ce soit la fin du RAG, mais pour un nombre surprenant de flux de travail, le contexte long seul suffit. »
C’est un point important : le contexte ultra-long n’a pas besoin d’être parfait ou de remplacer complètement le RAG pour être un grand changement. Dans la mesure où cela tient ses promesses, cette fonctionnalité pourrait débloquer une énorme gamme de fonctionnalités qui n’étaient pas possibles auparavant.
La plateforme d’orchestration Olex a commenté qu’il s’agit simplement d’un outil dans la conception des flux de travail futurs, écrivant : « Le contexte long ne remplace pas le RAG, mais il modifie absolument les compromis. Pour les flux de travail structurés et contenus comme les contrats, les documents uniques ou l’historique des discussions, le contexte seul est plus simple, plus rapide et suffisamment bon. Le RAG brille toujours lorsque vous avez besoin d’une récupération externe, dynamique ou filtrée. L’avenir mélange probablement les deux : contexte long pour la mémoire, RAG pour l’accès aux connaissances, orchestrateurs pour choisir le meilleur outil en temps réel. »
Matthew Burman a pris encore plus de recul, tout en notant de nombreuses lacunes de Llama 4, il a ajouté : « Voici l’aperçu stratégique que tout le monde manque : la fenêtre de contexte de 10 millions de tokens de Meta ne concerne pas les performances d’aujourd’hui, il s’agit de signaler la direction de demain. Ils nous montrent un avenir où l’IA ne se contente pas de récupérer des connaissances, mais transforme toute votre base de connaissances en mémoire de travail manipulable. »
« Zuckerberg comprend la vérité que Google a accidentellement divulguée : l’IA à source fermée n’a pas de fossé défensif. Les modèles de fondation deviennent des produits de base plus rapidement que quiconque ne l’avait prédit, et Meta accélère cette transformation. »
« La stratégie de Meta devient claire lorsque vous connectez les points : transformer les modèles de fondation en produits de base grâce à l’open source, faire du contexte le nouveau champ de bataille compétitif, forcer l’innovation vers la couche d’application, exploiter leur avantage massif de graphe social et, finalement, créer un écosystème ouvert où les données sociales et d’application deviennent les véritables fossés défensifs. »
Un lancement décevant malgré tout ?
Pourtant, à la fin de la journée, aussi influents soient-ils pour façonner la conversation, il est difficile de ne pas considérer cette sortie comme une déception jusqu’à présent.
Le professeur Ethan Malik a même commenté que leur modèle phare n’est pas à la hauteur, écrivant : « Il semble que même Llama Behemoth ne s’approche pas tant que ça de Gemini 2.5. Donc pas de parité open model avec l’état de l’art des modèles fermés. Nous verrons ce qui se passe quand les gens collent un raisonneur sur Llama, bien qu’il ne semble pas qu’ils le lancent avec. »
Et en effet, c’était une autre opinion commune. Andre Burkoff écrit : « Si la sortie décevante d’aujourd’hui de Llama 4 nous dit quelque chose, c’est que même 30 billions de tokens d’entraînement et deux billions de paramètres ne rendent pas votre modèle non raisonnant meilleur que les petits modèles raisonnants. L’échelle de taille des modèles et des données est terminée. »
Conclusion : une avancée en demi-teinte
En conclusion, je ne sais pas encore exactement quoi penser de tout cela. D’un côté, cela semble un peu précipité, et il semble que la pression de DeepSeek affecte Meta. En même temps, étant donné qu’ils adoptent une stratégie ouverte, les conséquences d’une sortie anticipée sont un peu moins graves pour eux que pour d’autres entreprises.
Si c’est rentable et meilleur que certaines choses auxquelles les gens avaient accès auparavant, il y aura encore beaucoup de développeurs qui construiront dessus. En effet, en mettant de côté le désir que chaque modèle brise les moules à chaque fois, pour les développeurs, cela représente simplement un autre ensemble de choix, ce qui, dans un environnement en évolution rapide, n’est qu’une bonne chose.
Cette fenêtre de contexte de 10 millions de tokens, si elle fonctionne comme promis, pourrait véritablement changer la donne pour de nombreux cas d’utilisation, même si elle ne signe pas la fin du RAG comme certains l’ont affirmé hâtivement. L’avenir nous dira si Llama 4 peut tenir ses promesses ambitieuses ou s’il s’agit principalement d’un coup marketing dans la course effrénée à l’IA.

