Deepseek Bouleverse l’Industrie de l’IA : L’Ascension Fulgurante du Modèle R10528

Deepseek Bouleverse l’Industrie de l’IA : L’Ascension Fulgurante du Modèle R10528

Deepseek frappe encore. Le modèle Deepseek R10528 est arrivé. Initialement, beaucoup pensaient qu’il s’agissait d’une mise à jour mineure du modèle Deepseek R1 original, mais il s’avère que c’est tout le contraire. Deepseek R1 a fait un bond impressionnant de sa version de janvier 2025 à ce nouveau modèle lancé le 28 mai 2025. Le saut entre l’ancien modèle et le nouveau est considérable, propulsant Deepseek à l’avant-garde du secteur.

Des Performances qui Rivalisent avec les Géants

Sur la plateforme Live Codebench, cette nouvelle version de Deepseek se positionne au même niveau que GPT-4o sur les benchmarks AIME 2024 et 2025. Elle se situe légèrement derrière le modèle GPT-4o, mais devance Gemini 2.5 Pro. Sur les autres benchmarks publiés, elle se classe également parmi les premiers, surpassant Gemini 2.5 Pro dans plusieurs cas.

Cette évolution est majeure. Nous attendions tous R2, la prochaine grande version du modèle, et la plupart d’entre nous supposaient que les résultats seraient similaires à ceux-ci : un bond en tête du peloton, peut-être pas à la première place, mais certainement parmi les meilleurs, rivalisant directement avec les modèles de pointe d’OpenAI, Gemini et Anthropic. Nous attendons également la sortie de la nouvelle version de Grock, et nous verrons où elle se situera.

Mais le point essentiel à comprendre est que ce n’est pas R2. Nous pensons toujours que R2 est en préparation. Cependant, si les résultats de ces benchmarks se confirment dans la pratique, cela signifie que ce modèle open-source est désormais comparable à Gemini 2.5 Pro, et nous pourrions voir quelque chose d’encore plus puissant en open-source dans un futur proche.

Comment Ont-ils Réalisé Cette Prouesse ?

Sam P. (je m’excuse si la prononciation est incorrecte), qui dirige EQBench, un benchmark d’intelligence émotionnelle pour les LLMs, a fait une découverte intéressante. C’est la première fois que j’entends parler de ce projet, donc gardez cela à l’esprit.

Il semble qu’il ait établi un « profil de slop » pour chaque modèle – essentiellement, quel type de formulations caractéristiques ces modèles produisent. Il utilise des outils de bio-informatique pour déduire leurs arbres généalogiques, ce qui est, je dois l’admettre, assez brillant. Encore une fois, c’est la première fois que j’examine cela, donc prenez cette information avec précaution.

Mais si cela fonctionne, c’est remarquable. Voici le profil de slop pour Deepseek R1, ce tout nouveau modèle sorti hier. Comme vous pouvez le voir, il analyse les diverses sorties en écriture créative pour identifier les mots créatifs les plus fréquents, les bigrammes et trigrammes les plus courants, etc.

Fondamentalement, tous ces modèles ont tendance à utiliser certaines expressions et certains mots. Vous avez probablement entendu « explorer » utilisé fréquemment par les modèles GPT. Ils adorent dire « tapisseries ». Tout comme les dirigeants d’entreprise adorent utiliser le mot « paradigme », Chad GPT aime utiliser « explorer » et « tapisseries ».

Ici, vous pouvez voir, surligné en jaune, Deepseek R1, le modèle original. Comme vous pouvez le constater, il se ramifie à partir du GPT-4o. Il est donc similaire aux modèles GPT d’OpenAI. Remarquez que Quaazar Alpha y figure également. C’est intéressant car des outils comme celui-ci pourraient être utilisés pour prédire qui possède les modèles qui sont testés sous des noms de code dans LLM Arena, sans que nous connaissions leur véritable nom ou leur créateur. Cela semble être un moyen assez simple de déterminer qui se cache derrière un modèle.

Essentiellement, notez que le Deepseek original se situe dans le cluster de la technologie OpenAI. Qu’en est-il du nouveau Deepseek R10528 qui vient d’être publié ? Il se trouve ici, se ramifiant plutôt de la technologie Gemini – Google Gemma, Gemini 2.5 Flash – et semble très similaire à Gemini 2.5 Pro experimental.

Je laisserai des liens vers les travaux de Sam. Donc, si tout le monde veut y jeter un coup d’œil, c’est sur GitHub. Il a un site web. Et je dois dire que c’est plutôt cool. C’est une sorte de médecine légale de l’IA, une idée intéressante.

L’Implication de Cette Découverte

Comme Sam le dit : « Si vous vous demandez pourquoi le nouveau Deepseek R1 sonne un peu différemment, je pense qu’ils sont probablement passés de l’entraînement sur des sorties synthétiques d’OpenAI à des sorties synthétiques de Gemini. »

Il existe un secret de Polichinelle dans l’industrie de l’IA : toutes ces entreprises prennent les sorties des modèles existants d’autres compagnies et utilisent ces sorties pour entraîner leurs propres modèles. C’est pourquoi parfois, si vous demandez à un modèle non-OpenAI quelle architecture il utilise, il pourra répondre qu’il fonctionne sur l’architecture GPT d’OpenAI, ou peut-être refusera-t-il de faire quelque chose en disant que cela va à l’encontre des politiques d’OpenAI. Personne n’en parle vraiment, mais cela semble être une pratique assez courante. Ils appellent cela la « distillation de connaissances » – distiller ou s’entraîner sur les données synthétiques d’autres modèles.

La Course à l’IA entre la Chine et les États-Unis

Si c’est le cas, c’est assez important. Comme vous le savez, la Chine et les États-Unis sont engagés dans une course pour faire progresser leurs efforts en matière d’IA. Ce n’est pas seulement mon opinion. Voici le Département américain de l’Énergie qui déclare que « l’IA est le prochain projet Manhattan, et les États-Unis vont gagner ». Ils comparent donc essentiellement le développement de l’IA à celui de la bombe nucléaire.

Et si vous avez suivi la réunion avec les dirigeants saoudiens, où Elon Musk, Sam Altman, Jensen Huang et de nombreuses autres personnalités étaient présents, ils cherchent à s’associer avec des alliés dans le domaine du développement de l’IA pour obtenir suffisamment d’énergie pour alimenter l’entraînement et l’exécution de ces modèles d’IA.

Voici une déclaration faite par Balaji il y a quelques mois. Je crois que l’idée est que nous allons assister à un blitz complet de modèles chinois d’IA open-source, de la vision par ordinateur à la robotique, en passant par la génération d’images et les grands modèles de langage comme Deepseek.

Pourquoi serait-ce le cas ? Potentiellement, leur objectif pourrait être de supprimer le profit des logiciels d’IA, puisqu’ils gagnent de l’argent sur le matériel compatible avec l’IA. Ils peuvent fabriquer les composants physiques mieux que nous aux États-Unis. Les États-Unis excellent vraiment dans les logiciels, ont été leaders dans ce domaine et dans l’IA, mais les entreprises technologiques américaines ont bien sûr besoin d’argent, de financement et de ressources pour continuer à acheter des puces Nvidia, etc., afin de poursuivre leur croissance et le développement de l’IA.

L’Impact sur l’Économie de l’IA

Maintenant, si un modèle open-source, qu’il s’agisse de Deepseek ou d’un autre, peut essentiellement, chaque fois que les entreprises technologiques américaines atteignent la première place et créent les meilleurs modèles propriétaires, simplement réentraîner leur modèle et se hisser en tête du peloton, fournissant l’IA open-source gratuitement ou à très bas prix et publiant les poids pour que les gens puissent l’utiliser pour leurs propres cas d’utilisation spécifiques, pour l’affiner pour leurs propres applications, etc., cela enlève beaucoup d’élan à bon nombre de ces entreprises. Cela leur retire le financement, leur capacité à gagner de l’argent.

Et donc, si les modèles open-source suivent simplement le rythme des meilleurs modèles, avec les meilleurs modèles propriétaires, cela efface essentiellement toute marge bénéficiaire pour ces grandes entreprises. Elles ne peuvent pas facturer trois fois le prix pour les mêmes performances. Et la différence de coût pourrait être bien plus importante.

Comparaison des Coûts d’API

Par exemple, voici les coûts d’API pour ces nouveaux modèles :

  • Deepseek R10528 (Deepseek Reasoner) : Plusieurs prix selon l’utilisation. Prix réduit, prix standard, selon que vous l’utilisez en cache ou non. En moyenne, entre 13 centimes et 55 centimes en entrée, et entre 50 centimes et 2,20 $ en sortie par million de tokens.

  • OpenAI GPT-4o : Entrée entre 2,50 $ et 10 $, sortie 40 $ par million de tokens.

  • Gemini 2.5 Pro Preview : De 1,25 $ à 2,50 $ en entrée, et de 10 $ à 15 $ en sortie.

Les prix de Deepseek R1 vont être très difficiles à battre, surtout s’il reste au niveau des leaders du secteur et les rattrape rapidement.

La Vision de Deepseek

La chaîne YouTube « AI Explained » a réalisé un excellent mini-documentaire sur Deepseek, en particulier sur son fondateur. Voici une citation du fondateur, Leang : « Face aux technologies disruptives, les barrières créées par les sources fermées sont temporaires. Même l’approche propriétaire d’OpenAI ne peut empêcher les autres de rattraper leur retard. Nous ancrons donc notre valeur dans notre équipe, une organisation et une culture capables d’innovation. C’est notre barrière. Nous ne passerons pas en source fermée. »

Les Enjeux Géopolitiques

Comme vous pouvez l’imaginer, il se passe beaucoup de choses ici. Nous avons la course entre la Chine et les États-Unis. Et encore une fois, ce n’est pas juste une narration. Les responsables américains, vous avez vu le tweet du Département de l’Énergie. Il y a eu des discours lors de la conférence aux Émirats arabes unis. Cela se produit réellement.

Il y a ce projet de loi qui va probablement être adopté. Il pourrait y avoir quelques modifications, mais il va changer les règles concernant la façon dont vous déduisez diverses dépenses de R&D, spécifiquement pour le développement de logiciels nationaux. Donc, espérons que lorsque et si cela est adopté, quelqu’un fera une analyse approfondie, quelqu’un qui connaît bien ce sujet et qui peut réellement expliquer ce qui se passe.

Pour moi, cela semble être une incitation assez importante pour les entreprises technologiques américaines à investir davantage dans l’embauche d’ingénieurs pour développer l’IA et les logiciels, etc. C’est en quelque sorte un moyen de subventionner le développement de l’IA sans jamais utiliser le mot « IA ».

Comme vous pouvez le voir ici, Nathan Lands sur X.com a fait une excellente couverture de ce qui se passe en Chine en même temps. Ainsi, alors que la production d’énergie américaine stagne, celle de la Chine progresse rapidement.

Une Compétition Complexe

Bien sûr, gardez à l’esprit que tout le monde est dans cette mentalité de compétition entre les États-Unis et la Chine. Nous avons certainement beaucoup de coopération. Nous avons beaucoup d’étudiants de Chine, de chercheurs et de personnes qui viennent ici pour s’éduquer, et certains restent et travaillent pour des laboratoires américains. Certains retournent en Chine.

Comme le dit le Dr Jim Fan de Nvidia, on peut presque considérer Deepseek comme préservant la mission originale d’OpenAI – une recherche de pointe véritablement ouverte.

Je pense qu’il est vraiment important ici de séparer les chercheurs et les personnes travaillant sur ce sujet dans les laboratoires d’IA des gouvernements des deux pays. Ce ne sont pas les mêmes. Et bien sûr, il y a beaucoup de coopération entre les chercheurs. Les personnes qui publient les articles partagent leurs secrets avec tout le monde. La communauté des chercheurs peut utiliser cela. Tout le monde s’améliore grâce à cela.

Mais vous voyez aussi de plus en plus de chevauchements entre le gouvernement et ces laboratoires d’IA des deux côtés. Gardez donc cela à l’esprit. Je ne pousse pas nécessairement un récit ou un autre. Je ne dis pas que quelque chose est bon ou mauvais. Certainement, c’est vraiment bon pour la communauté open-source dans son ensemble.

Je dis simplement qu’il y a beaucoup d’éléments en mouvement ici. Il y a beaucoup d’acteurs très puissants. Tout le monde a ses propres motivations.

Les Intérêts Divergents dans la Silicon Valley

Nous avons aussi beaucoup de personnes dans la Silicon Valley, des leaders technologiques, normalement des personnes assez pacifiques, qui s’expriment peut-être un peu plus contre les dangers de la Chine. Est-ce parce qu’ils s’inquiètent pour la sécurité de l’IA ? Ou est-ce parce qu’ils s’inquiètent de la concurrence avec la Chine et avec l’open-source ?

Peut-être pensent-ils que s’ils peuvent effrayer un peu le gouvernement pour qu’il agisse, alors peut-être que le gouvernement n’autorisera pas, par exemple, l’exportation de certaines puces vers la Chine, etc., rendant la concurrence plus facile.

Le point est qu’il y a beaucoup d’éléments en mouvement qui ne s’inscrivent pas nécessairement dans un récit simple. Mais je pense que le point important ici est que les roues tournent de plus en plus vite, qu’il y a de plus en plus de concurrence et d’intérêt dans ce domaine, et que les enjeux augmentent rapidement.

Conclusion

Si vous suivez cette chaîne depuis le début, j’ai toujours dit qu’il est hautement improbable que quelques laboratoires dans la région de la Baie soient autorisés à développer une super intelligence sans que le reste du monde ne le remarque et ne dise simplement : « Oui, allez-y. Nous ne sommes pas trop inquiets à ce sujet. »

Pour de nombreuses entreprises et même pour des nations, beaucoup de personnes qui contrôlent ces entreprises et ces nations voient probablement l’IA comme une condition existentielle de type gagnant-perdant. Que ce soit vrai ou non, les gens parient beaucoup là-dessus.

Restez à l’écoute. Nous ne faisons que commencer.

Featured image by Solen Feyissa on Unsplash