QwQ : Le Petit Modèle de Réflexion qui Surpasse DeepSeek R1 (Open Source)

Un modèle vient d’être publié qui est aussi performant que DeepSeek R1 mais beaucoup plus petit, au point où vous pouvez réellement l’exécuter sur votre ordinateur. Il affiche des résultats comparables, c’est un modèle de réflexion qui fonctionne à une vitesse incroyable, et le meilleur, il est complètement open source. Voici QwQ 32B par Alibaba, faisant partie de la série de modèles Quen, qui vient tout juste d’être lancé.

Des performances impressionnantes malgré sa taille réduite

Regardons ces benchmarks : il est comparable à DeepSeek R1 (version complète de 671 milliards de paramètres) alors qu’il ne possède que 32 milliards de paramètres, ce qui signifie que vous pouvez facilement l’exécuter sur votre ordinateur personnel.

AMY 2024 : 79,5 contre 79,8 pour DeepSeek R1

LiveCodeBench : Quelques points en dessous mais très comparable
LiveBench : Meilleur que DeepSeek
EvValv : Meilleur que DeepSeek

BFCL : 6 points devant DeepSeek

Comment QwQ a été développé

Dans leur blog, l’équipe de Quen commence par parler de l’apprentissage par renforcement, la même technique qu’OpenAI a utilisée pour les séries de modèles 01 et 03, et que DeepSeek R1 a également prouvé comme étant très efficace pour susciter ce comportement de réflexion dans les modèles fondamentaux.

Le principe est simple : vous prenez un bon modèle fondamental de petite ou moyenne taille, vous lui appliquez un apprentissage par renforcement, et soudainement, il devient un modèle de réflexion phénoménal. Ils ont spécifiquement entraîné des capacités liées aux agents dans ce modèle, ce qui lui permet de réfléchir de manière critique et d’utiliser des outils efficacement.

Groq GRQ l’héberge et obtient 450 tokens par seconde avec ce modèle, ce qui est absolument incroyable à observer.

La méthodologie d’entraînement

Comment ont-ils procédé ? Ils ont commencé avec un checkpoint initial et mis en œuvre l’apprentissage par renforcement avec une approche d’échelle basée sur des récompenses fondées sur les résultats.

Décomposons cela :

Ils utilisent l’apprentissage par renforcement avec des récompenses vérifiables, et la récompense est basée sur le résultat plutôt que sur le processus. Il est important de noter la différence entre les modèles de récompense basés sur les résultats et ceux basés sur les processus. Les modèles basés sur les processus sont généralement considérés comme meilleurs car ils peuvent récompenser le modèle pour avoir correctement exécuté plusieurs étapes, même s’il n’obtient pas la réponse finale correcte. Cela lui permet d’apprendre que les premières étapes étaient bonnes et d’itérer sur les étapes finales pour obtenir la bonne réponse plus tard.

Avec le modèle de récompense basé sur les résultats, vous ne récompensez le modèle que pour la sortie totale – la solution totale est-elle correcte ou non ? Si le modèle a réussi 9 étapes sur 10 mais s’est trompé sur la dernière, il recevra toujours un signal de récompense négatif.

Première phase : Mathématiques et codage

Dans la phase initiale, ils ont mis à l’échelle l’apprentissage par renforcement spécifiquement pour les tâches de mathématiques et de codage. C’est ainsi qu’on commence à susciter ce comportement de réflexion, car on peut donner un feedback avec une récompense vérifiable pour les mathématiques et le codage – on sait si c’est juste ou faux, ce qui donne un signal de récompense très fort.

Plutôt que de s’appuyer sur des modèles de récompense traditionnels, ils ont utilisé :
– Un vérificateur de précision pour les problèmes mathématiques afin de s’assurer de l’exactitude des solutions finales
– Un serveur d’exécution de code pour évaluer si le code généré passait avec succès les cas de test prédéfinis

C’est une approche intéressante : ils utilisent un modèle séparé comme vérificateur pour les mathématiques (pour vérifier la précision de la réponse par rapport à la vérité terrain) et pour le code, ils ont utilisé un serveur avec des tests pour vérifier si le code est correct, puis ont utilisé cela comme signal de récompense.

Deuxième phase : Capacités générales

Après la première étape, ils ont ajouté une autre phase d’apprentissage par renforcement pour les capacités générales. C’est donc une approche hybride : apprentissage par renforcement avec des récompenses vérifiables pour les mathématiques et le codage, puis utilisation d’un modèle de récompense général pour des capacités plus généralisées.

Selon leurs observations, cette étape d’entraînement par RL avec un petit nombre d’étapes peut augmenter les performances d’autres capacités générales comme le suivi d’instructions, l’alignement avec les préférences humaines et les performances d’agent, sans baisse significative des performances en mathématiques et en codage.

Ils ont donc utilisé les mathématiques et le codage pour commencer, amené le modèle à un très bon niveau, puis généralisé après cela en utilisant ces autres techniques – une recette intéressante pour créer un modèle plus général.

La vision de l’équipe pour l’avenir

L’équipe de Quen déclare : « Nous sommes convaincus que la combinaison de modèles fondamentaux plus puissants avec l’apprentissage par renforcement, alimenté par des ressources computationnelles à grande échelle, nous rapprochera de la réalisation de l’intelligence artificielle générale.«

Ce point est crucial car beaucoup de personnes ont critiqué GPT-4.5 pour ne pas représenter une amélioration significative malgré son coût élevé. Mais c’est un nouveau modèle fondamental, considérablement amélioré par rapport à GPT-4. Si vous prenez ce modèle fondamental et y ajoutez l’apprentissage par renforcement, comme ils le décrivent ici, le résultat sera bien meilleur.

Ils concluent avec quelque chose de vraiment passionnant : « De plus, nous explorons activement l’intégration d’agents avec l’apprentissage par renforcement pour permettre un raisonnement à long horizon, visant à débloquer une plus grande intelligence avec une mise à l’échelle du temps d’inférence. » Ils envisagent donc encore plus de puissance de calcul au moment du test que ce dont le modèle est déjà capable, et il est clair qu’ils pensaient vraiment aux agents lors du développement.

Performances avec les tâches d’agent

Il est évident que l’équipe a conçu ce modèle en pensant aux agents. Les modèles qui excellent dans les appels de fonctions, l’écriture de fonctions et l’utilisation d’outils sont généralement ceux qui performent le mieux pour le « vibe coding » (codage assisté par IA).

En fait, lorsque vous choisissez un modèle qui n’est pas particulièrement bon pour les tâches d’agent, Cursor (un IDE basé sur l’IA) vous avertit. Par exemple, si vous sélectionnez Gemini 2.0 Flash Thinking Experimental, il vous indique que ce modèle n’a pas encore un bon support d’agent.

C’est pourquoi je suis particulièrement enthousiaste d’essayer QwQ, qui est un modèle de raisonnement très rapide et efficace, mais également performant pour les tâches liées aux agents.

Test pratique : programmation d’une simulation physique

J’ai demandé au modèle : « Écrivez un programme Python qui montre une balle rebondissant à l’intérieur d’un hexagone en rotation. La balle doit être affectée par la gravité et la friction, et doit rebondir de manière réaliste sur les murs en rotation.«

En utilisant un espace Hugging Face (gratuit et accessible à tous), on peut voir que le modèle produit beaucoup de réflexion et à une vitesse décente. Après un temps relativement long de réflexion, nous avons une solution fonctionnelle. Ce n’est pas parfait, mais c’est là tout l’intérêt : nous pouvons itérer rapidement.

Mais voici quelque chose de vraiment impressionnant : Groq GRQ, l’entreprise connue pour ses vitesses d’inférence incroyables, a chargé QwQ 32B. Je vais prendre le code précédent et demander : « La balle ne rebondit pas correctement dans la simulation, elle ne touche pas du tout les murs. Veuillez corriger cela.«

La vitesse de réflexion est absolument incroyable – nous obtenons 450 tokens par seconde. À ce stade, nous pouvons faire beaucoup plus de réflexion dans un temps beaucoup plus court. Le potentiel pour ce type de vitesse est énorme.

Analyse critique des benchmarks

Pour être objectif, Artificial Analysis a effectué ses propres benchmarks, et les résultats ne sont pas aussi bons que ceux annoncés par l’équipe Quen. Examinons deux scores : GPT QA Diamond et AMY 2024.

GPT QA Diamond place QwQ à 59,5%, nettement derrière DeepSeek R1 (71%) et juste derrière Gemini 2.0 Flash (62%).

AMY 2024 lui attribue 78%, ce qui correspond aux affirmations de Quen, le plaçant devant DeepSeek R1 et dépassant tous les autres modèles testés à l’exception de 03 Mini High.

Sur le benchmark GPT QA Diamond pour le raisonnement scientifique, nous avons 03 Mini High et Cloud 3.7 Sonet Thinking en tête avec 77%, tandis que Quen QwQ 32B se situe vers le milieu à 60%, derrière 2.0 Flash, 3.7 Sonet, DeepSeek R1 et GPT-4.5 Preview (qui s’avère vraiment bon malgré les critiques lors de son lancement).

Sur AMY 2024, 03 Mini est en tête, et QwQ 32B atteint 78%, confirmant le score revendiqué par Quen.

Quelques faits techniques importants

Selon Artificial Analysis :

QwQ 32B possède 20 fois moins de paramètres que les 671 milliards de DeepSeek R1, et même moins que les 37 milliards de paramètres actifs de DeepSeek (rappelons que DeepSeek R1 est un mélange d’experts, donc lorsque vous l’interrogez, il n’utilise qu’une fraction de ces paramètres pour l’inférence).
QwQ 32B a été entraîné et publié en BF16, tandis que DeepSeek R1 a été entraîné et publié nativement en Floating Point 8, ce qui signifie que les versions natives de QwQ 32B et R1 occupent respectivement 65 Go et 671 Go.
Sur du matériel avec support natif FP8 comme le NVIDIA H100, DeepSeek R1 pourrait en fait utiliser moins de calcul effectif par passe avant.

Conclusion et perspectives

Dans l’ensemble, QwQ 32B reste un modèle très impressionnant qui montre ce qui est possible avec un modèle de cette taille et de cette efficacité.

Quelques critiques cependant :

Sa fenêtre contextuelle de 132K n’est pas énorme, plutôt dans la fourchette inférieure de ce qui est standard aujourd’hui.
J’ai remarqué qu’il réfléchit beaucoup plus que DeepSeek R1, 01 et Cloud 3.7 Thinking. Toute cette réflexion consomme beaucoup de tokens, et nous pourrions avoir besoin d’appliquer la technique « Chain of Draft » (présentée dans une vidéo précédente) – une nouvelle technique de prompt qui amène le modèle à réfléchir mais à ne produire que les parties les plus critiques, pas l’intégralité de la chaîne de pensée.

Il y a beaucoup à faire avec ce modèle open source aux poids ouverts, déjà hébergé sur différentes plateformes. Je vous encourage à l’essayer et à me faire part de vos impressions. Je l’ai intégré à Cursor, qui devrait bientôt obtenir un support d’outils pour ce modèle, et avec cette vitesse, les possibilités sont immenses.

Si vous avez apprécié cet article, n’hésitez pas à le partager et à vous abonner pour recevoir nos prochaines analyses sur l’IA.

Featured image by Gabriella Clare Marino on Unsplash