La Controverse Llama 4 : Quand Meta Optimise pour les Classements
Lorsqu’un modèle d’IA est entraîné sur des données de référence puis obtient d’excellents résultats sur ce même benchmark, nous appelons cela du surajustement (overfitting) ou de la contamination, et si c’est intentionnel, de la triche. Mais que se passe-t-il lorsqu’un fournisseur de modèle crée une version personnalisée spécifiquement pour obtenir de bons scores auprès des évaluateurs humains, et qu’ils en parlent même subtilement ? C’est exactement ce que Meta a fait avec Llama 4.
Le lancement controversé de Llama 4
Meta vient de lancer Llama 4 avec trois versions différentes, dont deux sont disponibles aujourd’hui : Scout et Maverick. Ces modèles massifs sont open-source avec des poids ouverts, ce qui est généralement excellent car nous disposons ainsi d’une autre famille de modèles de pointe accessibles à tous.
Cependant, un aspect particulier a attiré l’attention : ces modèles ont obtenu des scores très élevés sur les classements LM Arena. Llama 4 Maverick se positionne juste derrière Gemini 2.5 Pro, avec une version expérimentale à 326 points. Mais voici le problème : il s’agit d’une version personnalisée qui a été optimisée pour la conversationnalité, ce qui signifie qu’elle donne des réponses plus longues et plus robustes qu’elle ne l’aurait fait autrement. Et les évaluateurs humains apprécient particulièrement ce type de réponses.
Comment fonctionne LM Arena
Expliquons ce qu’est réellement le classement LM Arena. Des utilisateurs humains sont confrontés à deux options différentes dans une expérience à l’aveugle. Ces deux options sont générées par deux modèles différents, et l’humain est invité à choisir celle qu’il juge la meilleure. C’est ainsi qu’ils obtiennent le score ELO.
Comme mentionné, Llama 4 Maverick a obtenu un score très élevé, mais le modèle ne performe pas aussi bien ailleurs. Pourquoi ? Parce qu’il a été spécifiquement entraîné en gardant à l’esprit les évaluateurs humains.
Des réponses optimisées pour plaire aux humains
Voici un exemple du type de sortie que ce modèle produit : beaucoup d’émojis, très verbeux. Par exemple, à la question « D’où vient la citation ‘Meurs, monstre, tu n’as pas ta place en ce monde’ ? », le modèle répond :
« Une question fantastique 👏 ! Tu me demandes l’origine de l’une des répliques les plus emblématiques, les plus badass et les plus citées de toute la culture pop 😊 ! Voici son histoire d’origine… » Et ça continue.
Le modèle est très conversationnel, très enthousiaste, très positif et apparemment amusant à utiliser. Ainsi, lorsqu’un humain voit ce type de réponse, il a tendance à le choisir parce qu’il est simplement plus conversationnel dans ce sens. Mais voici le problème : cette réponse n’est même pas correcte. C’est juste un exemple où il se trompe, mais supposons qu’il puisse avoir raison dans d’autres cas. Le point essentiel est qu’il s’agit d’un modèle distinct spécifiquement entraîné pour être conversationnel et pour bien performer sur les classements LM Arena.
Est-ce de la triche ?
Que pensez-vous de cette approche ? Est-ce de la triche ? Meta l’a divulgué et le modèle a obtenu un score très élevé, mais si vous utilisez ce modèle sur d’autres benchmarks, il n’aurait pas obtenu d’aussi bons résultats. Et ils n’ont pas utilisé exactement ce modèle sur ces autres benchmarks, mais plutôt leur modèle standard.
Si vous regardez le graphique produit par Meta dans leur rapport, tout en bas, on peut lire : « Hypothèses : les tests LM Arena ont été effectués en utilisant Llama 4 Maverick optimisé pour la conversationnalité ». Il s’agit donc d’une version unique du modèle spécifiquement conçue pour LM Arena.
Une opinion nuancée sur cette pratique
Personnellement, je suis partagé sur cette question. D’un côté, LM Arena n’est pas un benchmark au sens traditionnel du terme. Dans les benchmarks classiques, il existe une série de questions prédéfinies sur lesquelles le modèle est testé, et il obtient soit la bonne réponse, soit la mauvaise. Dans LM Arena, des évaluateurs humains se voient présenter deux options pour chaque prompt et sont invités à voter pour celle qu’ils jugent la meilleure. Il s’agit donc vraiment de préférence humaine.
Si une entreprise fournit un modèle personnalisé pour un benchmark spécifique, cela me semble être de la triche. Il pourrait s’agir simplement de surajustement et le modèle ne performera pas bien sur d’autres benchmarks. Mais dans ce cas, comme ce n’est pas vraiment un benchmark, peut-être que ce n’est pas de la triche. De plus, ils l’ont divulgué, ils n’ont pas essayé de le cacher.
Quelle est donc la raison pour laquelle ils ont fait cela ? Évidemment, si le modèle obtient un score élevé sur les classements LM Arena, ils obtiennent plus de buzz, plus de presse, plus de viralité, et tout cela est bénéfique pour Meta.
Réactions de la communauté IA
Nathan Lambert, un expert reconnu en intelligence artificielle, a déclaré : « Il semble que la réputation de Llama 4 soit peut-être irrémédiablement ternie par le fait d’avoir un modèle séparé non publié qui a été surajusté pour LM Arena. Le modèle réel est bon, mais cela montre encore une fois à quel point la communication et les détails sont cruciaux. » Et beaucoup de personnes ont des opinions mitigées sur le modèle réel, pas la version LM Arena, mais le modèle réel.
Performances sur d’autres benchmarks
Regardons un benchmark de codage. Gemini 2.5 Pro Experimental est tout en haut avec un score très élevé, et si vous avez vu mes tests, vous savez que c’est réel. Mais tout en bas, nous avons Llama 4 Maverick et Llama 4 Scout encore plus bas. Le modèle ne performe donc pas très bien sur certains de ces benchmarks, y compris le benchmark Ader Polyglot.
Examinons cela. Paul Gayier, l’auteur d’Ader, qui est un excellent projet de codage IA, a également créé le benchmark Ader Polyglot. Llama 4 Maverick a obtenu 16% sur ce benchmark de codage polyglotte. Si nous regardons les résultats, Gemini 2.5 Pro (je suis toujours impressionné par ce modèle) est au-dessus de 70%, Claude 3.7 (sans réflexion) est à 60%, et tout en bas, nous avons Llama 4 Maverick sous les 20%, environ 15%. Donc pas très bon.
Gardez à l’esprit qu’il s’agit de la première version du modèle, il ne peut que s’améliorer à partir de là. C’est un modèle de base sur lequel ils vont itérer, et ils n’ont même pas encore publié les versions « thinking » (avec capacité de réflexion). J’ai donc encore de l’espoir.
Le « bouton panique » de Meta ?
Juste au moment où je pensais que le drame Llama s’était calmé, un nouvel article de Nathan Lambert est apparu : « Llama 4 : Meta vient-il d’appuyer sur le bouton panique ? ». Il passe en revue le lancement de Llama 4, qu’il considère comme l’une des sorties les plus étranges à ce jour, et présente toute une série de faits.
Les lancements de Llama 2 et Llama 3 ont été parmi les événements majeurs de l’IA pour leurs années respectives, mais Llama 4 semble complètement perdu. Voici l’historique des lancements Llama :
– OPT sorti en 2022
– Llama en 2023
– Llama 2 plus tard cette année-là
– Llama 3 début 2024
– 3.1 un peu plus tard
– 3.2 encore plus tard en 2024
– 3.3 à la fin de l’année dernière
– Llama 4 le 5 avril 2025, juste ce week-end passé
Le temps entre les versions majeures s’allonge, ce qui est intéressant mais peut-être aussi attendu. La taille des modèles Llama 4 est beaucoup plus grande que toutes les versions précédentes combinées.
Lambert souligne ensuite les benchmarks inclus dans la publication de Llama 4. La sortie a eu lieu un samedi, ce qui est totalement bizarre pour une grande entreprise lançant l’un de ses produits les plus médiatisés de l’année. Je suis tout à fait d’accord avec cette observation. Zuckerberg a spécifiquement dit : « C’est quand il était prêt. » Mais vraiment, s’ils essaient de faire le plus grand effet possible, ils devraient probablement le lancer en semaine. J’étais dans un avion de retour de New York quand il a été lancé, et bien sûr, je n’ai rien pu faire avant d’être rentré chez moi, et beaucoup d’autres personnes qui auraient parlé de ce lancement étaient occupées.
On peut voir dans les journaux de modifications qu’ils ont changé la date : il devait initialement être lancé le 7 avril (aujourd’hui, lundi) et ils l’ont avancé au samedi.
Lambert poursuit en disant que la fonctionnalité phare de 10 millions de tokens pour Scout (ce qui est incroyable, tandis que Maverick est à 1 million, également très impressionnant) n’a même pas été évaluée au-delà du test « aiguille dans une botte de foin », qui est un test de base. Les autres benchmarks sont importants aussi, et nous avons effectivement obtenu certains benchmarks d’évaluateurs indépendants.
Il aborde ensuite ce dont nous avons déjà parlé : le comportement de Llama 4 est radicalement différent dans LM Arena parce qu’ils ont utilisé une version personnalisée. Il qualifie cela de « sournois » et affirme que « les résultats ci-dessous sont faux et c’est un affront majeur à la communauté de Meta de ne pas publier le modèle qu’ils ont utilisé pour créer leur principal argument marketing ».
Nous voyons encore une fois Llama tout en haut, avec un score très élevé et extrêmement peu coûteux, mais si nous zoomons et regardons tout en bas, comme je l’ai dit plus tôt, les tests ont été effectués en utilisant un modèle optimisé.
Évaluations indépendantes
Artificial Analysis a publié des évaluations indépendantes du modèle, qui a en fait assez bien performé, mais ils l’ont comparé à des modèles sans capacité de raisonnement. Nathan argue qu’on ne devrait pas comparer séparément les modèles avec et sans raisonnement, mais qu’on devrait avoir des tâches de raisonnement et sans raisonnement évaluées séparément. Les modèles dits « de raisonnement » surpassent souvent les benchmarks sans raisonnement, mais l’inverse est rarement vrai.
D’autres évaluations indépendantes vont de moyennes à mauvaises et confuses. Les résultats parfois étranges sont généralement dus à des problèmes d’hébergement en raison des longues fenêtres de contexte – ils rencontrent simplement des difficultés avec cela.
Il pourrait également y avoir des problèmes culturels au sein de l’équipe Meta AI. L’organisation GenAI de Meta a montré des signes majeurs de défis culturels tout au long de son existence, y compris le départ de leur responsable de la recherche en IA quelques jours seulement avant le lancement de ce modèle.
Benchmark de contexte long
Nous avons également un nouveau benchmark de contexte, testant l’efficacité du contexte long sur fiction.live. Nous voyons ici tous les modèles et dans les rangées supérieures, nous avons la taille du contexte jusqu’à 120k, ce qui est en fait très petit par rapport à ce qui est possible avec ce modèle. Dans cette colonne, nous avons tous les différents modèles. Nous voyons Maverick (Llama 4 Maverick) et Llama 4 Scout ici, et vous pouvez voir que même à environ 400, 1 000, 2 000, 4 000, ces chiffres sont horribles, et jusqu’à 120K à 15 et 28, ce qui est vraiment mauvais.
Pour mettre en contexte (sans jeu de mots), regardons Gemini 2.5 Pro qui, à mon avis, est le meilleur modèle actuellement, sans exception. Regardez ceci : 100, 100, 100 tout du long. À 16K, il a légèrement baissé, mais jusqu’à 120K, il est encore à 90, battant facilement tous les autres modèles. Selon leur analyse, Gemini 2.5 Pro est maintenant clairement supérieur. C’est la première fois qu’un LLM est potentiellement utilisable pour l’écriture à contexte long.
Mise à jour de Meta
Juste avant de terminer cette vidéo, Ahmad, responsable de GenAI chez Meta, a publié une mise à jour qui reflète vraiment beaucoup de la pensée optimiste que j’ai à propos des modèles Llama 4. Écoutez ceci :
« Nous sommes heureux de commencer à mettre Llama 4 entre vos mains. Nous entendons déjà beaucoup de bons résultats que les gens obtiennent avec ces modèles. Cela dit, nous entendons également certains rapports de qualité variable à travers différents services. Comme nous avons déployé les modèles dès qu’ils étaient prêts, nous prévoyons qu’il faudra plusieurs jours pour que toutes les implémentations publiques soient bien réglées. »
C’est ce qui se passe, ce n’est pas aussi simple que de cliquer sur un bouton de chargement et le modèle fonctionne immédiatement. Il y a tellement de paramètres différents qui doivent être ajustés spécifiquement pour chaque modèle en fonction des technologies qu’ils utilisent.
Il aborde directement la controverse de l’entraînement : « Nous avons également entendu des allégations selon lesquelles nous aurions entraîné sur des ensembles de test. C’est tout simplement faux et nous ne ferions jamais cela. Notre meilleure compréhension est que la qualité variable que les gens observent est due au besoin de stabiliser les implémentations. »
Cela n’aborde pas tout à fait le problème de leur version personnalisée du modèle dans LM Arena, mais encore une fois, je vous ai déjà donné mes réflexions à ce sujet.
« Nous croyons que les modèles Llama représentent une avancée significative et nous sommes impatients de travailler avec la communauté pour libérer leur valeur. » Exactement ce que j’ai dit : donnez-leur du temps, je crois vraiment que ces modèles vont s’épanouir.
Conclusion
La controverse entourant Llama 4 soulève d’importantes questions sur l’éthique des évaluations de modèles d’IA et la transparence des entreprises technologiques. Bien que Meta ait divulgué l’utilisation d’un modèle optimisé pour LM Arena, cette pratique a suscité des critiques au sein de la communauté IA.
Malgré ses performances mitigées sur divers benchmarks, Llama 4 représente une avancée technologique significative, notamment avec sa capacité de contexte étendue. Comme pour tout nouveau modèle d’IA, il faudra du temps pour que ses implémentations soient optimisées et que son plein potentiel soit réalisé.
La question reste ouverte : jusqu’où les entreprises peuvent-elles aller dans l’optimisation de leurs modèles pour des benchmarks spécifiques avant que cela ne soit considéré comme de la manipulation ? Cette controverse contribuera sans doute à façonner les normes futures d’évaluation et de présentation des modèles d’IA.

