Qwen3 est-il le nouveau roi du codage ? Analyse approfondie du modèle IA

Qwen3 est-il le nouveau roi du codage ? Analyse approfondie du modèle IA

Aujourd’hui, nous allons tester le modèle Qwen3 qui vient d’être lancé. Le modèle phare, qu’ils appellent Qwen3 235B A22B (un nom fantastique car si facile à retenir), a apparemment surpassé Gemini 2.5 Pro sur certains benchmarks de codage. Je trouve cela surprenant, et comme on dit, faites confiance mais vérifiez. C’est exactement ce que nous allons faire.

Premier test : Simulation du système solaire en HTML

J’ai utilisé le site chat.qwen.ai en activant le mode « thinking » qui permet au modèle de réfléchir plus longtemps. La limite est de 32 000 tokens. Ma première observation : le modèle prend énormément de temps pour générer une réponse au prompt suivant :

« Écrivez un fichier HTML autonome avec une vue 2D de notre système solaire et une sonde lancée par l’utilisateur. Les utilisateurs peuvent cliquer et faire glisser près d’une planète pour définir le vecteur de vitesse initiale de la sonde. Lorsqu’ils relâchent, la sonde est lancée. Fournissez uniquement trois contrôles d’interface : lecture, pause, réinitialisation et un curseur pour la vitesse de simulation. »

Après un long temps de réflexion (près de 40 000 tokens utilisés), Qwen3 a finalement généré le code HTML. La simulation fonctionne bien dès le premier essai :

  • La simulation du système solaire est fluide
  • Les contrôles de lecture, pause et réinitialisation fonctionnent correctement
  • On peut lancer une sonde depuis les planètes

Cependant, j’ai dû demander quelques améliorations comme l’augmentation de la vitesse maximale et l’ajout de boutons pour activer/désactiver la gravité du soleil et des planètes. Qwen3 a implémenté ces modifications avec succès.

Un problème que j’ai remarqué : au départ, seul le soleil avait une gravité, les planètes n’en avaient pas. Après avoir activé la gravité des planètes, il y avait quelques comportements étranges lorsque la sonde s’approchait trop près d’une planète.

J’ai ensuite essayé de créer une version 3D de cette simulation, mais Qwen3 n’a pas réussi à la rendre correctement malgré plusieurs tentatives.

Deuxième test : Simulation de football en Python

Pour ce test, j’ai demandé un jeu de football 2v2 en Python où les personnages ont des statistiques, des niveaux et de l’expérience qui s’améliorent au fil des matchs.

Malheureusement, Qwen3 n’a pas produit un code fonctionnel. Les joueurs n’interagissaient pas correctement avec le ballon, même après plusieurs tentatives de correction.

En comparaison, Gemini 2.5 Pro a produit une simulation exceptionnelle après quelques tentatives. Le jeu comportait un système de points d’expérience, un mode « turbo » pour les joueurs, et un suivi du score. De même, GPT-4o a créé un jeu fonctionnel où les joueurs pouvaient tacler le ballon et marquer des buts.

Dans ce test, Gemini 2.5 Pro et GPT-4o ont clairement surpassé Qwen3.

Troisième test : Jeu du serpent avec apprentissage par renforcement

Pour ce test plus complexe, j’ai demandé de créer un jeu du serpent entièrement autonome où deux serpents s’affrontent, avec des obstacles et des fruits. Le défi principal était de créer un pipeline d’apprentissage par renforcement pour que les serpents apprennent à jouer de mieux en mieux.

Le prompt demandait un fichier unique capable de fonctionner avec différents arguments :
– Avec l’argument « play » : deux serpents jouent de manière autonome avec un script simple
– Avec l’argument « train » : création d’un pipeline d’apprentissage par renforcement utilisant PyTorch, simulant 500 épisodes et sauvegardant les réseaux neuronaux
– Avec l’argument « 1 » ou « 2 » : utilisation du réseau neuronal entraîné pour le serpent 1 ou 2

Qwen3 a créé une solution très intelligente, mais différente de ce que j’attendais. Au lieu d’une représentation visuelle graphique, il a créé une version en mode texte du jeu. Cette approche permettait d’exécuter l’entraînement beaucoup plus rapidement.

Techniquement, cela répondait à toutes les exigences du prompt, car je n’avais pas spécifiquement demandé une représentation visuelle graphique. Qwen3 a correctement implémenté l’apprentissage par renforcement avec PyTorch et tous les arguments fonctionnaient comme demandé.

Je lui donne donc une très bonne note pour ce test, même si l’approche était différente de ce que j’attendais.

Quatrième test : Musique par gestes avec webcam

J’ai demandé un programme Python autonome qui utilise la webcam de l’utilisateur pour jouer de la musique en fonction des gestes des mains.

Qwen3 a réussi ce test du premier coup. Bien que l’implémentation soit relativement basique comparée à ce que d’autres modèles ont produit, le programme fonctionnait correctement et répondait à toutes les exigences du prompt.

Je lui attribue un A pour ce test (pas un A+ car j’ai vu des implémentations plus sophistiquées d’autres modèles).

Cinquième test : Livre audio interactif avec API

Ce test était plus complexe et impliquait l’utilisation d’API externes. J’ai demandé de créer un livre audio interactif en utilisant mes clés API OpenAI et 11Labs. OpenAI devait produire le texte de l’histoire, et 11Labs devait le transformer en voix. L’application devait utiliser le microphone de l’utilisateur pour permettre l’interaction.

J’ai testé ce prompt sur quatre modèles : Qwen3, Gemini 2.5 Pro, Claude 3.7 et GPT-4o.

Résultats pour Gemini 2.5 Pro

Gemini a produit une excellente solution. Il a averti que l’inclusion directe des clés API dans le code était une mauvaise pratique, mais a quand même fourni le code demandé avec des commentaires expliquant comment le sécuriser. L’application fonctionnait parfaitement, générant une histoire interactive où je pouvais parler pour faire avancer l’intrigue.

Résultats pour GPT-4o

GPT-4o a également produit une excellente solution, avec l’avantage d’un mode sombre. Il a refusé d’inclure directement les clés API dans le code, demandant à l’utilisateur de les remplir lors de l’utilisation. L’application fonctionnait parfaitement, permettant même de taper ou de parler pour interagir.

Résultats pour Claude 3.7

Claude 3.7 a produit la meilleure solution. L’interface utilisateur était élégante, permettant de choisir plusieurs options dès le début. Tout fonctionnait parfaitement, avec une narration fluide qui s’adaptait aux réponses de l’utilisateur.

Résultats pour Qwen3

Qwen3 n’a pas réussi à implémenter correctement toutes les fonctionnalités. Bien qu’il ait correctement utilisé l’API OpenAI pour générer l’histoire, la partie 11Labs pour la voix ne fonctionnait pas, et il n’y avait aucun moyen d’interagir avec l’histoire par la voix.

Conclusion

Après avoir testé Qwen3 235B A22B sur ces différents projets, je peux dire que c’est un modèle décent pour le codage. Il présente de nombreux points forts, notamment sa capacité à implémenter l’apprentissage par renforcement avec PyTorch et sa performance dans certains tests simples.

Cependant, je ne suis pas convaincu que son score CodeForces supérieur à celui de Gemini 2.5 Pro soit nécessairement exact. Dans mes tests, Claude 3.7, Gemini 2.5 Pro et GPT-4o semblent tous légèrement meilleurs que Qwen3.

Bien sûr, ces tests ne sont pas exhaustifs et les résultats peuvent varier selon vos cas d’utilisation spécifiques. Une fois que le modèle aura été testé par des milliers d’utilisateurs, nous aurons une meilleure idée de sa position dans le classement des modèles de langage.

Je m’attends à ce que Qwen3 soit probablement le modèle open-source le plus performant disponible, surpassant probablement DeepSeek V3 et Deepseek R1. Cependant, je ne le vois pas dépasser les grands modèles propriétaires de Google DeepMind, Anthropic ou OpenAI pour le moment.

Si vous avez testé Qwen3, partagez votre expérience. Le trouvez-vous particulièrement performant pour le codage ou simplement bon sans être exceptionnel, comme c’est mon impression actuelle ?

Featured image by Bianca Fazacas on Unsplash