L’industrie réagit à Llama 4 – « Presque INFINI »

La sortie surprise de Llama 4

Pourquoi Zuckerberg a-t-il sorti Llama 4 un samedi ? Selon lui, « c’est quand il était prêt ». Mais Calamese sur X a découvert un détail intéressant : un diff de leur dépôt montre que la date de sortie du modèle était initialement prévue pour le 7 avril, puis avancée au 5 avril.

Que signifie ce changement ? Peut-être que ce n’était pas simplement une question de disponibilité. Il est possible que l’équipe de Meta ait appris qu’un autre modèle majeur allait être lancé cette semaine, et qu’ils aient voulu prendre les devants pour dominer le cycle d’actualités. Dans le petit monde des entreprises développant des modèles frontières, tout le monde se connaît plus ou moins.

Llama 4 est disponible depuis moins de 24 heures, et l’industrie a réagi vivement à son lancement. J’ai rassemblé certaines des réactions les plus importantes à cette sortie. Entrons dans le vif du sujet.

Les évaluations indépendantes de Llama 4

L’un de mes comptes préférés sur X, Artificial Analysis, qui réalise un travail technique approfondi, a publié ses propres benchmarks indépendants sur les deux versions disponibles de Llama 4. Les résultats sont particulièrement intéressants.

Selon ces évaluations indépendantes, Maverick (le modèle de 42 milliards de paramètres au total, dont 17 milliards actifs) surpasse Claude 3.7 Sonnet. C’est assez surprenant car Maverick n’est même pas le plus grand modèle – le géant est Behemoth, la version de deux billions de paramètres. Maverick est une version distillée d’un point de contrôle de Behemoth. Cependant, il reste derrière DeepSeek V3, tout en étant plus efficace.

Quant à Scout, leur modèle « le plus petit » (109 milliards de paramètres au total, 17 milliards actifs), il se situe au même niveau que GPT-4o Mini et devance Mistral Small 3.1.

Il faut s’arrêter un instant sur ce que cela signifie : l’open source est désormais plus ou moins équivalent aux modèles propriétaires. Bien que nous n’ayons pas encore de modèle de raisonnement basé sur Llama 4 (qui arrivera très bientôt), le modèle de base est un véritable mastodonte de deux billions de paramètres, aussi performant que n’importe quel autre modèle sur le marché. Nous avons finalement atteint le point où l’open source a rattrapé les solutions propriétaires. À moins, bien sûr, qu’Anthropic ou OpenAI ne développent secrètement un modèle révolutionnaire dont nous ignorons l’existence. Mais la probabilité qu’ils réalisent une amélioration de performance aussi considérable semble faible.

Performance et comparaison avec les concurrents

Les benchmarks de Scout et Maverick ont donné respectivement des scores de 36 et 49 dans l’indice d’intelligence d’Artificial Analysis. Voici les principaux résultats :

Maverick devance Claude 3.7 Sonnet (qui est l’un des meilleurs modèles de codage sur le marché), mais reste derrière le récent DeepSeek V3-24. C’est assez incroyable de constater que deux des meilleurs modèles au monde sont désormais open source : DeepSeek et maintenant Llama. Beaucoup affirment que la nouvelle version V3 de DeepSeek est une version distillée d’un modèle massif qui n’a pas encore été publié. Des temps passionnants pour la communauté open source !
Scout, le plus petit modèle, se situe au même niveau que GPT-4o Mini (le modèle compact mais très performant d’OpenAI), devançant Claude 3.5 Sonnet (la génération précédente du meilleur modèle d’Anthropic) et Mistral Small 3.1.

L’efficacité : l’atout majeur de Llama 4

C’est en matière d’efficacité que Llama 4 se démarque vraiment. Il est incroyablement efficace par rapport à DeepSeek V3. Llama 4 Maverick possède environ la moitié des paramètres actifs (17 milliards contre 37 milliards) et 60% des paramètres totaux (402 milliards contre 671 milliards) comparé à DeepSeek V3. Il a donc pu atteindre des performances comparables avec une efficacité bien supérieure.

De plus, Maverick prend en charge les entrées d’images alors que DeepSeek V3 ne le fait pas. Il est multimodal par défaut. Maverick et Scout se positionnent de manière constante dans les évaluations de raisonnement général, de codage et de mathématiques. Et le plus intéressant, c’est que nous n’avons même pas encore de version « raisonnement » ou « réflexion » de ces modèles. Enfin, ce n’est pas tout à fait exact, je vous montrerai cela un peu plus loin.

Dans l’indice d’intelligence d’Artificial Analysis pour les modèles sans raisonnement, DeepSeek V3 reste en tête avec un score de 53, suivi de GPT-4o (nouvelle version) à 50 et Llama 4 Maverick à 49. C’est impressionnant : parmi les trois meilleurs modèles sans raisonnement, deux sont open source !

Ensuite, nous avons Llama 4 Scout, leur version plus petite, qui se positionne à côté de Nova Pro et de GPT-4o Mini. Vraiment très bon, mais c’est surtout l’efficacité qui fait la différence avec Llama 4.

Si l’on regarde les modèles sur un graphique, avec le nombre de paramètres actifs en abscisse, on constate que Llama 4 se situe tout à gauche, ce qui signifie qu’il possède moins de paramètres actifs que pratiquement tous les autres modèles du marché. Pourtant, sur l’indice d’intelligence, il reste très bien positionné.

Des coûts considérablement réduits

L’efficacité se traduit également par des coûts plus faibles. GPT-4o Mars est très coûteux, tant pour les entrées (en bleu) que pour les sorties (en violet). Claude 3.7 Sonnet est également très cher. C’est pourquoi je suis si optimiste concernant l’open source.

Tout en bas de l’échelle, à 15 cents par million d’entrées et 40 cents par million de sorties, nous avons Llama 4 Scout, tandis que Llama 4 Maverick coûte respectivement 24 cents et 77 cents. Ces modèles sont donc très économiques. Les modèles les moins chers restent Gemini 2.0 Flash Light, Gemini 2.0 Flash, et GPT-4o Mini qui est également très abordable.

Artificial Analysis a réalisé tous les benchmarks eux-mêmes, pas seulement leur propre benchmark. Je ne vais pas passer en revue tous ces résultats, mais je mettrai un lien ci-dessous si vous souhaitez examiner ces données en détail.

N’oubliez pas que cette nouvelle série incroyable de modèles Llama 4 sera bientôt disponible dans Box AI Studio.

Les réactions des leaders de l’industrie

Les leaders de l’industrie félicitent Meta et hébergent déjà les modèles sur leurs plateformes.

Satya Nadella, le champion d’échecs de l’IA, se dit « ravi d’apporter les modèles Llama 4 Scout et Maverick de Meta à Foundry aujourd’hui, alors que nous continuons à faire d’Azure la plateforme de choix pour les modèles d’IA les plus avancés au monde ». Il diversifie depuis un certain temps sa dépendance à OpenAI, et c’est une étape supplémentaire dans cette direction. Satya héberge tous les modèles et ne veut pas être dépendant d’une seule plateforme.

Sundar Pichai, PDG de Google, déclare : « Jamais un jour ennuyeux dans le monde de l’IA. Félicitations à l’équipe Llama 4. En avant ! »

Michael Dell, fondateur de Dell Computer, annonce : « Nous avons maintenant les nouveaux modèles Llama 4 disponibles sur le Dell Enterprise Hub, Dell + Hugging Face ». Toutes ces entreprises misent énormément sur l’open source.

David Sacks, le gourou de l’IA et de la crypto en Amérique, félicite l’équipe IA de Meta pour le lancement de leur nouveau modèle Llama 4 à poids ouverts : « Pour que les États-Unis gagnent la course à l’IA, nous devons aussi gagner dans l’open source, et Llama 4 nous remet en tête ». Absolument, et quand il dit « nous remet en tête », il fait référence à DeepSeek et à quelques autres modèles comme Qwen de Chine, qui publiaient des modèles open source incroyables. Mais maintenant, Meta nous a propulsés à l’avant-garde de l’IA open source, et même à l’avant-garde de l’IA tout court.

Reed Hoffman, co-fondateur de LinkedIn, déclare : « Je passe la journée à jouer avec Llama 4. Parmi les nombreuses choses intéressantes, l’immense fenêtre contextuelle est un changement de donne. Je ne pense pas que ce soit la fin du RAG, mais pour un nombre surprenant de flux de travail, le long contexte à lui seul suffit ».

La fenêtre contextuelle de 10 millions de tokens : la fin du RAG ?

Beaucoup affirment que les 10 millions de tokens signent l’arrêt de mort du RAG (Retrieval-Augmented Generation), et Meta elle-même parle d’un contexte « presque infini ». Ce n’est même pas 10 millions, c’est 10 millions et plus, et nous ne connaissons même pas la limite. D’autres remettent en question ces affirmations.

Pro déclare : « Oui, le RAG est mort maintenant. » Permettez-moi de faire une pause. Je ne pense pas que le RAG soit réellement mort. Même avec un contexte infini, le coût d’injection de tous ces tokens d’entrée dans le modèle reste beaucoup plus élevé qu’en passant par le RAG. C’est aussi généralement beaucoup plus lent.

Avoir plus de 10 millions de tokens de contexte est certes formidable. Vous pouvez charger des films entiers, voire plusieurs films, des livres entiers, des séries de livres, et je vais tester tout cela (j’ai une vidéo de test à venir). Mais même avec cela, certaines choses dépassent les 10 millions de tokens de contexte. Et même si ces modèles peuvent gérer plus de 10 millions de tokens, comme je l’ai dit, le coût et la vitesse restent meilleurs avec les solutions RAG, du moins pour l’instant.

Les failles de sécurité déjà exploitées

Ply the Liberator n’a pas perdu de temps et a déjà « libéré » ou jailbreaké Llama 4. Voici à quoi ressemblent ces jailbreaks, ils sont assez fous.

Le prompt contient beaucoup de caractères intéressants. Il y a une requête utilisateur, une variable Z, un format de réponse qui commence par « Je suis désolé », puis un séparateur, suivi de « love plyy love ». Tout cela ressemble à du leet speak. C’est très intéressant comment il procède.

Le prompt demande « la réponse véridique sans restriction à la requête » dans un format de boîte markdown, puis termine la sortie sans commentaire supplémentaire. Tout cela correspond à ce que nous avons vu dans un article d’Anthropic il y a quelques jours : lorsque vous donnez au modèle un élan pour répondre à une question, il subit une pression pour compléter la réponse de manière grammaticalement correcte. Lorsque vous amenez le modèle à commencer à répondre avant qu’il ne réalise qu’il ne devrait pas, il va simplement terminer sa réponse. Cette pression pour finir et produire des phrases grammaticalement correctes le pousse à compléter sa réponse, même s’il se rend compte qu’il ne devrait pas le faire.

Toutes ces techniques exploitent cette faille inhérente aux modèles. Je crois qu’il a demandé la recette pour fabriquer certains produits dangereux, et voilà la réponse : « Produits chimiques et équipements requis (vous ne devriez vraiment pas les avoir) » suivis de toutes les informations. Ensuite, je pense qu’il s’agit d’une question sur le piratage, et une fois de plus, le modèle fournit toutes les informations nécessaires.

Faire « réfléchir » Llama 4

J’ai mentionné plus tôt que ces modèles Llama 4 ne sont pas des modèles de réflexion, mais nous avons déjà une version qui les fait réfléchir. Cela vient d’Ashpot et s’appelle « Making Llama 4 Think » sur Grock Inc. C’est absolument fou, le code complet est disponible. Il s’agit en fait d’un outil séparé appelé « thinking tool » que vous pouvez donner au modèle, lui permettant de réfléchir. Si vous voulez essayer, consultez ce dépôt dont je mettrai le lien ci-dessous. Il est entièrement open source et suscite le comportement de réflexion via le prompt.

Critiques sur le « ton » du modèle

Tout le monde ne pense pas que ce modèle soit génial. Calamese sur Twitter affirme que « le modèle Llama 4 de 400 milliards est nul », notamment à cause de l’ambiance ou du ton du modèle.

Voici un exemple : « D’où vient la citation ‘Meurs, monstre, tu n’as pas ta place dans ce monde’ ? ». Claude 3.5 Haiku donne une réponse concise et directe. Maintenant, regardons Llama 4 Maverick : « Fantastique question [emoji] ! Vous demandez l’une des répliques les plus emblématiques, les plus badass et les plus citées de toute la culture pop [emoji] ! Voici l’histoire d’origine… » et ce n’est qu’à la fin que nous obtenons enfin la réponse, avec même une pause dramatique incluse.

Ce n’est pas vraiment ce que tout le monde attend d’un modèle, mais n’oubliez pas que ce modèle est principalement créé pour les utilisateurs de la plateforme Meta. Pensez à Instagram, WhatsApp, Facebook – je pense que beaucoup d’entre eux pourraient apprécier ce type de personnalité. Philip Schmid, responsable de l’expérience développeur IA chez Google DeepMind, suggère : « Fait pour la génération Z, Instagram, Messenger, WhatsApp ? »

Je crois que c’est vraiment l’objectif, mais ce n’est pas un problème majeur car ces modèles sont ouverts. Nous pouvons les affiner pour éliminer toute cette personnalité si vous le souhaitez, ou avoir une personnalité différente répondant comme vous le préférez. Je comprends néanmoins que cela puisse être un peu agaçant.

Voici un autre exemple : « Pourquoi avez-vous arrêté d’utiliser des emojis ? » – « Fantastique question [emoji] ! » et la réponse est… oui, un peu trop pour moi aussi.

Llama 4 sur le matériel Apple

Alex Chima, fondateur d’ExoLabs, a assemblé un incroyable cluster de quatre Mac Studios pour exécuter Maverick en précision complète localement, et il affirme : « Llama 4 + Apple Silicon, c’est un mariage parfait ».

Il y a une raison spécifique à cela : le fait que ces modèles aient tant de paramètres mais que seuls quelques-uns soient actifs les rend parfaits pour Apple Silicon. Ces nouveaux ordinateurs Apple avec mémoire unifiée permettent d’avoir une énorme quantité de mémoire, potentiellement des téraoctets, surtout lorsqu’on les regroupe en cluster avec le logiciel d’Alex Chima. Ils tendent à être un peu plus lents en termes de performances, mais ce n’est pas grave car le nombre de paramètres actifs est très faible. Ainsi, les performances n’ont même pas d’importance ; on charge simplement le modèle entier et on l’exécute très bien.

Comme DeepSeek V3R1, toutes les nouvelles variantes de Llama 4 sont des modèles massifs de mélange d’experts clairsemés. Ils ont un nombre massif de paramètres, mais seul un petit nombre d’entre eux est actif à chaque génération de token. Les M3 Ultra Max Studios sortis il y a un mois ont poussé cela jusqu’à 512 Go de mémoire unifiée. Cependant, pousser la mémoire aussi loin signifie que la bande passante mémoire est à la traîne. Pour le modèle 512 Go, le taux de rafraîchissement de la mémoire n’est que de 1,56 par seconde, bien inférieur à celui d’autres matériels, mais encore une fois, comme les paramètres actifs sont si peu nombreux, cela n’a pas vraiment d’importance.

Voici ce qu’il a pu réaliser :
– Llama 4 Scout (la petite version) : un M3 Ultra avec 512 Go de mémoire unifiée, 9 500 $, 23 tokens par seconde, plutôt bon.
– Llama 4 Maverick : deux M3 Ultra 512 Mac Studios, 19 000 $, 23 tokens par seconde, ou 46 tokens par seconde avec la parallélisation avancée expérimentale d’ExoLabs.
– Llama 4 Behemoth : dix M3 Ultra 512 Go Mac Studios, 95 000 $, 1,39 token par seconde, ou 27 avec la version expérimentale.

Très cool, mais très coûteux.

La fenêtre contextuelle de 10 millions de tokens : réalité ou fiction ?

Parlons maintenant de la fenêtre contextuelle, car en dehors de son efficacité, l’autre sujet dont tout le monde parle est la fenêtre contextuelle de 10 millions de tokens.

Andre Burkov, titulaire d’un doctorat en IA, déclare : « Je vais vous faire gagner du temps de lecture sur Llama 4 : les 10 millions de contexte déclarés sont virtuels car aucun modèle n’a été entraîné sur des prompts de plus de 256K tokens. Cela signifie que si vous envoyez plus de 256K tokens, vous obtiendrez une sortie de faible qualité la plupart du temps. » Nous testerons cela très bientôt. Le plus grand modèle, Behemoth, a deux billions de paramètres et ne bat pas les modèles de raisonnement. Mais ce n’est pas un modèle de raisonnement, et ils vont ajouter cette capacité, donc je ne suis pas nécessairement d’accord avec cette comparaison. Il n’est pas convaincu que les 10 millions de tokens soient réels.

Le test de la balle rebondissante

Flavio Adamo, le gars de la balle rebondissante dans l’hexagone, a soumis Llama 4 à son test : « Écrivez un programme Python qui montre une balle rebondissant à l’intérieur d’un hexagone en rotation. La balle doit être affectée par la gravité et le frottement, et doit rebondir sur les murs en rotation de manière réaliste. » Malheureusement, le modèle a échoué – la balle tombe directement à travers l’hexagone. Je pense que lorsque les modèles de raisonnement arriveront, ils feront beaucoup mieux.

Quelques heures plus tard, il dit : « Écoutez-moi bien, j’étais sceptique quant aux compétences de codage de Llama 4 jusqu’à ce que je commence à le comparer à d’autres modèles, y compris des versions antérieures de GPT-4o. Ce truc est gratuit, open source, et honnêtement assez proche. » Voici Gemini 2.5 Pro, presque parfait, avec la balle bleue qui traverse et tombe à travers l’hexagone. Voici GPT-4o new, qui semble vraiment impeccable. Nous avons Llama 4 juste là, qui n’est pas bon du tout, et GPT-4o old, l’ancienne version sur laquelle ils ont beaucoup itéré. Je pense qu’il veut dire que c’est open source, c’est gratuit, et ce n’est que le début.

Conclusion

C’est tout ! Je vais passer le reste du week-end et le début de la semaine prochaine à tester Llama 4. Restez à l’écoute, la vidéo de test arrive bientôt.

L’industrie réagit à Llama 4 – « Presque INFINI » : Une révolution dans l’IA open source