Qwen3 : Un modèle open-source exceptionnel rivalisant avec Gemini 2.5 Pro

Qwen3 : Un modèle open-source exceptionnel rivalisant avec Gemini 2.5 Pro

Nous disposons désormais d’un modèle entièrement open-source avec des poids ouverts qui est comparable à Gemini 2.5 Pro. Qwen3 vient d’être lancé et il est tout simplement impressionnant. Permettez-moi de vous présenter ses performances à travers différents benchmarks.

Les performances impressionnantes de Qwen3

Le modèle phare de Qwen, le Qwen3 235B, dispose de 235 milliards de paramètres dont 22 milliards de paramètres actifs. Dans les comparatifs, il se mesure aux meilleurs modèles du marché comme Claude 3 Opus (O1), Deepseek R1, GPT-4o, Gemini 2.5 Pro et Claude 3 Sonnet (O3 Mini).

Pour le benchmark Arena Hard, Gemini 2.5 Pro conserve la première place, mais de justesse. Sur les tests MMLU 24 et MMLU 25, Qwen3 obtient respectivement 85,7 et 81,5 points, contre 92 et 86,7 pour Gemini 2.5 Pro. La différence est notable mais pas écrasante.

Sur Live Codebench, Qwen3 atteint 70,7 points, dépassant Gemini 2.5 Pro qui obtient 70,4 points. Plus impressionnant encore, sur Code Forces, Qwen3 a obtenu un classement ELO de 2056, supérieur aux 2001 points de Gemini 2.5 Pro.

Optimisation pour les agents et le codage

Ce modèle a été spécialement optimisé pour les agents et le codage. Sur le benchmark BFCL, qui teste sa capacité d’appel de fonctions, le modèle Qwen3 235B obtient un score de 70,8, comparé à 62,9 pour Gemini 2.5 Pro. Même le modèle Qwen3 32B dense, plus traditionnel et plus petit, atteint 70,3 sur ce même benchmark, surpassant également Gemini 2.5 Pro.

Le modèle mixte d’experts de 30 milliards de paramètres avec seulement 3 milliards de paramètres actifs est extrêmement rapide et représente le meilleur modèle de cette génération.

Comparaison avec d’autres modèles de pointe

Comparé à Qwen 2.5 (génération précédente), Gemma 3 27B, Deep Seek V3 (récemment sorti) et GPT-4o (version de novembre), les performances sont remarquables :

  • Arena Hard : 91 pour Qwen3 contre 85 pour GPT-4o
  • MMLU 24 et 25 : 80 et 70 pour Qwen3 contre 11 et 7 pour les autres
  • Live Codebench : 62 pour Qwen3 contre 32 pour les concurrents

C’est un modèle véritablement phénoménal, mais ce n’est pas tout ce qui le rend spécial.

Une innovation unique : le budget de réflexion ajustable

Qwen3 présente une caractéristique que l’on voit rarement ailleurs : c’est un modèle hybride de réflexion dont le budget de réflexion peut être ajusté. Les tests montrent une augmentation progressive des performances en fonction du nombre de tokens utilisés pour la réflexion.

On peut observer le mode sans réflexion (en rouge sur les graphiques) qui maintient une performance constante, mais lorsqu’on augmente sa capacité de réflexion avec plus de tokens, ses performances s’améliorent considérablement sur tous les benchmarks (MMLU 24, MMLU 25, Live Codebench et GPQA Diamond).

Deux modes de fonctionnement complémentaires

Les modèles Qwen3 introduisent une approche hybride pour la résolution de problèmes :

  1. Mode réflexion : le modèle prend le temps de raisonner étape par étape avant de livrer la réponse finale. Ce mode est idéal pour les problèmes complexes qui nécessitent une réflexion approfondie.

  2. Mode sans réflexion : le modèle fournit des réponses rapides, presque instantanées, adaptées aux questions plus simples où la vitesse est plus importante que la profondeur.

Cette flexibilité permet aux utilisateurs de contrôler le niveau de réflexion du modèle en fonction de la tâche à accomplir. L’intégration de ces deux modes améliore considérablement la capacité du modèle à mettre en œuvre un contrôle stable et efficace du budget de réflexion, permettant de configurer des budgets spécifiques à chaque tâche avec une plus grande facilité, pour un équilibre optimal entre efficacité des coûts et qualité d’inférence.

Applications pratiques du budget de réflexion

Imaginez l’utilisation de cette fonctionnalité pour le codage assisté. Parfois, lorsqu’on donne une tâche difficile comme développer une nouvelle fonctionnalité ou écrire des tests, on veut que le modèle prenne son temps, réfléchisse et produise la meilleure réponse possible.

Mais pour d’autres tâches plus simples comme exécuter des commandes terminales, vérifier que les tests passent, committer le code et déployer, le modèle n’a pas besoin de cette réflexion supplémentaire. Avec Qwen3, au lieu d’attendre inutilement que le modèle réfléchisse longuement lorsque ce n’est pas nécessaire, il peut ajuster son budget de réflexion en temps réel.

Intégration avec des outils MCP via Zapier

Puisque Qwen3 est optimisé pour l’utilisation d’outils MCP (Multi-Call Protocol), il est important d’avoir accès aux meilleurs outils MCP, ce que propose Zapier, qui vient de lancer un serveur MCP pour des milliers d’outils.

Zapier, utilisé depuis plus de 10 ans par de nombreuses entreprises, rend maintenant ses milliers d’outils disponibles pour les agents d’intelligence artificielle via leur service MCP. La configuration est simple : il suffit de choisir les applications à ajouter au serveur MCP, et Zapier fournit une URL qui peut être intégrée à des plateformes comme Windsurf Cloud Desktop, Cursor, ou tout autre service consommant des outils MCP.

Avec plus de 7 000 applications disponibles dans leur service MCP, Zapier permet également de configurer des automatisations directement sans écrire une seule ligne de code. Ils proposent un plan gratuit pour commencer, avec des options d’évolution selon les besoins.

La famille de modèles Qwen3

La famille Qwen3 comprend deux modèles de type Mixture of Experts (MoE) et six modèles denses plus traditionnels. Voici les différents modèles disponibles :

Modèles Mixture of Experts

  1. Qwen3 235B (modèle phare) :
  2. 235 milliards de paramètres avec 22 milliards de paramètres actifs
  3. 128 experts, dont 8 activés lors de l’inférence
  4. Longueur de contexte de 128K tokens (relativement courte pour les standards actuels)

  5. Qwen3 30B :

  6. 30 milliards de paramètres avec seulement 3 milliards de paramètres actifs
  7. Extrêmement efficace et rapide
  8. 48 couches
  9. 128 experts au total, 8 experts activés
  10. Longueur de contexte de 128K tokens

Modèles denses (traditionnels)

La gamme va de 32 milliards à 600 millions de paramètres :

  • Les modèles de 8 à 32 milliards de paramètres ont une fenêtre de contexte de 128K tokens
  • Les modèles de 600 millions à 4 milliards de paramètres ont une fenêtre de contexte de 32K tokens

Capacité d’appel d’outils pendant le raisonnement

L’aspect le plus impressionnant est la capacité de Qwen3 à effectuer des appels d’outils pendant son processus de réflexion, une fonctionnalité que l’on ne retrouve généralement que dans les modèles Claude 3 Opus et Claude 3 Sonnet.

Dans une démonstration, le modèle a pu récupérer les étoiles GitHub et créer un graphique à barres. Le modèle de 32 milliards de paramètres alterne entre phases de réflexion et appels d’outils : il commence par réfléchir, puis effectue un appel d’outil pour récupérer des données, revient à la réflexion, lance un autre appel d’outil pour l’interpréteur de code, et produit finalement un graphique à barres montrant les étoiles sur GitHub.

Une autre démonstration montre l’utilisation de l’ordinateur. À la demande d’organiser le bureau par type de fichier, le modèle commence par réfléchir rapidement, puis effectue plusieurs appels d’outils en séquence : liste des répertoires autorisés, liste du contenu d’un répertoire, création de dossiers, déplacement de fichiers… Tout cela au sein d’une même exécution d’inférence. Le résultat est impressionnant : il organise les fichiers, crée les dossiers nécessaires et place les fichiers dans les dossiers appropriés en fonction de leur type.

Le processus de pré-entraînement de Qwen3

Qwen3 a été considérablement amélioré par rapport à Qwen 2.5. Alors que Qwen 2.5 était entraîné avec 18 billions de tokens, Qwen3 utilise près du double, soit 36 billions de tokens couvrant 119 langues et dialectes.

La méthode de construction du jeu de données est tout aussi intéressante. Les données ont été collectées non seulement à partir du web, mais aussi de documents de type PDF. Ils ont utilisé Qwen 2.5VL pour extraire le texte des documents et Qwen 2.5 pour améliorer la qualité du contenu extrait, utilisant ainsi la génération précédente de modèles pour créer les données de la génération suivante.

Pour augmenter la quantité de données mathématiques et de code, ils ont utilisé Qwen 2.5 Math et Qwen 2.5 Coder pour générer des données synthétiques, incluant des manuels, des paires de questions-réponses et des extraits de code.

Un processus de pré-entraînement en trois étapes

  1. Première étape : Le modèle a été pré-entraîné sur plus de 30 billions de tokens avec une longueur de contexte de 4 000 tokens. Cette étape a fourni au modèle des compétences linguistiques de base et des connaissances générales.

  2. Deuxième étape : Amélioration du jeu de données en augmentant la proportion de données intensives en connaissances comme les STEM, le codage et les tâches de raisonnement. Le modèle a ensuite été pré-entraîné sur 5 billions de tokens supplémentaires.

  3. Étape finale : Utilisation de données de contexte long de haute qualité pour étendre la longueur du contexte à 32K tokens.

Post-entraînement et développement du modèle hybride

Le post-entraînement de Qwen3 est particulièrement intéressant. Pour développer le modèle hybride capable à la fois de raisonnement étape par étape et de réponses rapides, une pipeline d’entraînement en quatre étapes a été mise en œuvre :

  1. Chaîne de réflexion longue : À partir du modèle de base, ils ont utilisé des données de chaîne de réflexion longue couvrant diverses tâches et domaines tels que les mathématiques, le codage, le raisonnement logique et les problèmes STEM, visant à doter le modèle de capacités de raisonnement fondamentales.

  2. Apprentissage par renforcement du raisonnement : La deuxième étape s’est concentrée sur l’augmentation des ressources de calcul pour l’apprentissage par renforcement, utilisant des récompenses basées sur des règles pour améliorer les capacités d’exploration et d’exploitation du modèle.

  3. Fusion du modèle de réflexion : Tout le code pour cette étape a été publié. Ils ont intégré des capacités sans réflexion dans le modèle en l’affinant sur une combinaison de données de chaîne de réflexion longue et de données d’instruction couramment utilisées. Les données ont été générées par le modèle de réflexion amélioré de la deuxième étape, assurant un mélange harmonieux de capacités de raisonnement et de réponse rapide.

  4. Apprentissage par renforcement général : À cette étape, ils ont obtenu les deux modèles finaux. Ils ont appliqué l’apprentissage par renforcement sur plus de 20 tâches de domaine général pour renforcer davantage les capacités générales du modèle et corriger les comportements indésirables.

Ensuite, une distillation forte a été appliquée pour obtenir les versions plus petites des modèles.

Essayer Qwen3 dès maintenant

Vous pouvez télécharger le modèle immédiatement. Il est disponible sur LM Studio ainsi que sur O Lama via MLX, Llama CPP et K Transformers. De nombreux utilisateurs notent que ce modèle surpasse largement Llama 4, ce qui est particulièrement remarquable juste un jour avant la conférence Llamicon.

Comparaison avec Llama 4

Comparons Qwen3 235B, le modèle phare, avec Llama 4 Maverick, leur modèle Frontier :

  • Llama 4 : 402 milliards de paramètres (mais utilise moins de paramètres actifs)
  • Qwen3 : 235 milliards de paramètres avec 22 milliards de paramètres actifs

Sur les benchmarks, Qwen3 surpasse Llama 4 presque partout :
– MMLU : 87 contre 85
– MMLU Redux : même tendance
– Super GPQA : 44 contre 40
– GSM AK : autre amélioration significative

Qwen3 l’emporte sur presque tous les benchmarks, à l’exception d’une seule tâche multilingue.

Benchmarks indépendants

L’organisation Artificial Analysis a déjà réalisé certains de ses benchmarks indépendants. Sur le test GPQA Diamond de raisonnement scientifique, le modèle phare de Qwen3 atteint 70%. Gemini 2.5 reste en tête avec 84%, suivi de près par Claude 3 Opus. Qwen3 se classe juste derrière Deepseek R1 et Llama 3.1 Neatron Ultra (la version Nvidia de la génération précédente de Llama).

En examinant GPQA Diamond par rapport au nombre de paramètres actifs, on constate que Qwen3 30B, avec seulement 3 milliards de paramètres actifs, offre un excellent rapport performance/efficacité. Sur le graphique, l’axe X montre l’efficacité (plus à gauche est meilleur) et l’axe Y montre la performance sur GPQA Diamond (plus haut est meilleur). Le modèle phare Qwen3 235B se situe bien au-dessus de Llama 4 Maverick et Llama 4 Scout, juste en dessous de Deep Seek R1, et bien au-dessus des modèles Gemma.

Test de vitesse impressionnant

J’ai téléchargé Qwen3 30B (30 milliards de paramètres avec 3 milliards de paramètres actifs) et sa vitesse est impressionnante. En lui demandant d’écrire le jeu Snake en Python, la réponse est quasi instantanée, même si je dispose d’un Mac Studio puissant avec une puce Apple M3 Ultra et 96 Go de RAM.

Je vous encourage vivement à tester ce modèle par vous-même. Je vais continuer à l’explorer et partagerai d’autres vidéos à ce sujet prochainement.