DeepSeek R1 : Une mise à jour majeure qui rivalise avec les modèles O3 de niveau frontier

DeepSeek R1 : Une mise à jour majeure qui rivalise avec les modèles O3 de niveau frontier

DeepSeek vient de lancer une nouvelle version de DeepSeek R1. De façon inattendue, nous avons d’abord vu apparaître les poids sur Hugging Face, sans aucune information supplémentaire. Et aujourd’hui seulement, nous avons enfin reçu des détails sur cette mise à jour. Bien que l’entreprise la qualifie de « mise à jour mineure », il s’agit en réalité d’une amélioration substantielle qui mérite notre attention.

Les améliorations majeures de DeepSeek R1

Dans cette dernière mise à jour, DeepSeek R1 a considérablement amélioré sa profondeur de raisonnement et ses capacités d’inférence en exploitant davantage de ressources computationnelles et en introduisant des mécanismes d’optimisation algorithmique pendant la phase de post-entraînement. Le modèle affiche désormais des performances remarquables dans diverses évaluations de référence, notamment en mathématiques, en programmation et en logique générale.

L’élément le plus important à retenir est que ses performances globales se rapprochent maintenant de celles des modèles leaders comme O3 d’OpenAI et Gemini 2.5 de Google. Il s’agit d’un modèle entièrement gratuit et open-source développé par DeepSeek qui concurrence directement les modèles frontier propriétaires des grandes entreprises technologiques américaines.

Comparaison des performances sur les benchmarks

Examinons quelques-uns des benchmarks pour mieux comprendre cette évolution :

  • AMY 2024 : progression de 79,8 à 91,4
  • AMY 2025 : progression de 70 à 87
  • GPQA Diamond : progression de 71 à 81
  • Live Codebench : progression de 63 à 73
  • ADER : progression de 57 à 71
  • Humanity’s Last Exam : progression de 8,5 à 17,7

Si nous comparons ces résultats à ceux d’O3 d’OpenAI, nous constatons que DeepSeek R1 est désormais très proche :
– Pratiquement identique sur AMY 2024
– Légèrement en retrait sur AMY 2025
– Quelques points de différence sur GPQA Diamond et Live Codebench
– Une différence plus substantielle sur ADER (71 contre 79)

Fait surprenant, Gemini 2.5 Pro, que beaucoup considèrent comme le meilleur modèle de codage disponible, est en retrait par rapport à O3 sur presque tous les benchmarks.

L’analyse d’Artificial Analysis

Artificial Analysis a réalisé une analyse indépendante du nouveau DeepSeek R1 et voici ce qu’ils ont découvert :

« DeepSeek R1 dépasse XAI, Meta et Anthropic pour se positionner à égalité comme le deuxième laboratoire d’IA mondial et le leader incontesté des modèles à poids ouverts. »

Le modèle est passé de 60 à 68 dans l’indice d’intelligence d’Artificial Analysis, qui compile les résultats de sept benchmarks de référence. Cette progression est comparable à celle observée entre les modèles O1 et O3 d’OpenAI.

Architecture et caractéristiques techniques

Il n’y a eu aucun changement dans l’architecture du modèle, c’est pourquoi nous ne voyons pas un R2. Il s’agit plutôt de R1 V2. C’est un grand modèle de 671 milliards de paramètres avec 37 milliards de paramètres actifs. Il a fait un bond significatif dans ses compétences de codage, R1 égalant désormais Gemini 2.5 Pro dans l’indice de codage d’Artificial Analysis et se positionnant juste derrière O4 Mini High et O3.

J’ai pu constater la même chose lors de mes propres tests. J’ai remarqué que la quantité de code que le modèle est prêt à générer pour une seule fonctionnalité, comme le test du Rubik’s Cube ou le jeu Snake, est assez substantielle, comparable à celle de Gemini 2.5 Pro.

Consommation de tokens et processus de réflexion

Un autre élément intéressant est que la nouvelle version de R1 utilise beaucoup plus de tokens pour réfléchir que la version précédente :

R1 528 a utilisé 99 millions de tokens pour compléter les évaluations dans l’indice d’intelligence d’Artificial Analysis, soit 40% de plus que l’original. En d’autres termes, le nouveau R1 réfléchit plus longtemps que l’original. Cependant, Gemini 2.5 Pro utilise encore plus de tokens, 30% de plus que R1 0528.

L’importance de cette mise à jour dans le paysage de l’IA

Pourquoi tout cela est-il important ? L’écart entre l’open source et le closed source continue de se réduire. Lorsque DeepSeek R1 est sorti pour la première fois il y a quelques mois, il représentait un bond en avant considérable dans le domaine de l’open source. C’était vraiment la première fois que nous voyions un modèle open source extrêmement capable et efficace dans sa réflexion. Mais maintenant, avec cette mise à jour, il est comparable aux modèles frontier leaders.

Un autre élément à garder à l’esprit est que, selon Artificial Analysis, la Chine reste au coude à coude avec les États-Unis. Les modèles des laboratoires d’IA basés en Chine ont pratiquement rattrapé leurs homologues américains. Cette version confirme cette tendance émergente. À ce jour, DeepSeek devance les laboratoires d’IA américains, y compris Anthropic et Meta, dans l’indice d’intelligence d’Artificial Analysis.

Comment ont-ils amélioré le modèle ?

Comment ont-ils réussi à extraire toute cette intelligence supplémentaire du même modèle de base ? Après l’entraînement initial, ils ont continué à affiner leurs techniques d’apprentissage par renforcement et ont pu tirer davantage de leur préentraînement original.

Voici à quoi ressemble ce bond en avant : DeepSeek en janvier 2025 était à 60, juste en dessous de Claude Sonnet, qui venait de sortir. Maintenant, il a fait un bond massif pour se positionner juste derrière les modèles fermés d’OpenAI et à égalité avec Gemini 2.5 Pro Preview de mai 2025.

Il y a encore plusieurs modèles que nous n’avons pas vus, notamment Grock 3.5, qui, selon XAI, sera vraiment bon et assez différent. Nous verrons bien. La plus grande déception reste Llama 4 Maverick, qui se trouve bien plus bas dans le classement. J’avais de grands espoirs pour Llama 4, mais ils ont été déçus.

Tests pratiques avec le nouveau DeepSeek R1

Test du Rubik’s Cube

J’ai bien sûr testé la nouvelle version de DeepSeek avec DeepThink activé sur le test du Rubik’s Cube. J’ai utilisé le même prompt que pour tous les autres modèles que j’ai testés :

« Écrivez un programme HTML JavaScript complet utilisant 3JS qui rend une simulation de Rubik’s Cube entièrement interactive de n’importe quelle taille jusqu’à 20x20x20. L’utilisateur devrait pouvoir spécifier dynamiquement la taille du cube. Le cube doit être construit en conséquence avec des faces correctement colorées. Incluez des contrôles de caméra pour faire pivoter la vue. Permettez une interaction utilisateur de base comme la rotation des couches du cube via la souris ou des boutons d’interface. »

Gemini 2.5 Pro, la version originale, avait réussi ce test du premier coup, sans problèmes. C’était vraiment impressionnant à voir. Puis la nouvelle version de Gemini 2.5 Pro a pu le refaire, encore mieux.

DeepSeek R1 a réfléchi pendant 328 secondes, soit plusieurs minutes, avant de produire une réponse. Dans son processus de réflexion, il a reformulé ce qu’il allait faire, s’est posé des questions sur les performances, et a itéré sur différentes approches pour résoudre le problème.

Malheureusement, lorsque j’ai exécuté le code, je n’ai pas vu de cube s’afficher initialement. Après avoir corrigé l’initialisation de 3JS, le cube est apparu et semblait correct. Cependant, les fonctionnalités comme le mélange (« scramble ») et la résolution (« solve ») ne fonctionnaient pas correctement. Le cube semblait se mélanger puis se résoudre immédiatement tout seul, et la physique des rotations ne fonctionnait pas comme prévu.

Test du jeu Snake avancé

J’ai ensuite essayé de demander un jeu Snake avancé, pas seulement un jeu Snake normal, mais une version plus élaborée avec différents types de nourriture, de power-ups, de téléportation, et d’autres fonctionnalités intéressantes.

Curieusement, la phase de réflexion pour ce test n’a pris que 22 secondes. Le modèle a commencé par définir comment il allait construire le jeu, puis a généré une quantité impressionnante de code : 1 117 lignes au total.

Malheureusement, lorsque j’ai essayé d’exécuter le code, j’ai rencontré une erreur : « Name error: Name player_snake is not defined ». J’ai demandé au modèle de corriger ce problème, ce qu’il a fait, mais le jeu se terminait instantanément après le lancement.

Conclusion sur la mise à jour de DeepSeek R1

Je dois avouer que je suis un peu déçu par cette nouvelle version, du moins sur la base des quelques tests que j’ai effectués. Selon les benchmarks, il s’agit d’un bond en avant considérable, ce qui est excellent, mais j’aurais aimé voir le modèle accomplir davantage lors de mes tests pratiques.

L’évolution de l’intelligence des modèles de langage frontier

Un graphique intéressant d’Artificial Analysis montre l’évolution de l’intelligence des modèles de langage frontier au fil du temps. On peut y voir OpenAI en noir, avec un bond majeur lors du passage de GPT-3.5 à GPT-4, puis quelques améliorations mineures, suivies d’un autre bond majeur avec l’introduction des modèles « thinking » (qui réfléchissent).

DeepSeek, représenté en bleu foncé, montre quelques améliorations mineures, puis un bond énorme au début de cette année avec la sortie de DeepSeek R1, suivi d’une autre belle progression avec cette nouvelle version de R1.

Vitesse d’inférence et contexte

Si vous vous demandez quel fournisseur utiliser pour obtenir les vitesses d’inférence les plus rapides, Fireworks arrive en tête avec 253 tokens de sortie par seconde pour cette nouvelle variante de DeepSeek R1.

La fenêtre de contexte de DeepSeek reste relativement limitée. Sur DeepSeek proprement dit, nous obtenons 64 000 tokens. Sur Fireworks et certains autres fournisseurs d’inférence, nous atteignons 164 000 tokens.

Quant aux options de prix, Fireworks se situe en haut de l’échelle, tandis que DeepSeek est plutôt vers le bas.

Malgré quelques déceptions dans mes tests pratiques, cette mise à jour de DeepSeek R1 représente une avancée significative pour les modèles open-source et illustre la rapidité avec laquelle l’écart se comble entre les solutions propriétaires et open-source dans le domaine de l’IA générative.