« OpenAI n’est pas Dieu » – Le documentaire DeepSeek sur Liang Wenfeng, R1 et l’avenir de l’IA
Pour un accès anticipé aux futurs documentaires et plus de 30 vidéos exclusives sans publicité, consultez mon lien Patreon dans la description.
L’émergence inattendue de DeepSeek
DeepSeek n’était pas censé exister. Le scénario semblait écrit d’avance. L’Occident possédait une avance croissante dans le domaine de l’IA. Les modèles de langage devenaient de plus en plus coûteux à mesure qu’ils gagnaient en intelligence. Et la recherche se retranchait derrière un voile de secret compétitif.
Mais le 20 janvier 2025, ceux qui récitaient ces lignes ont commencé à bégayer. Un modèle qui semblait visiblement réfléchir avant de parler avait été publié : DeepSeek R1. Il était incroyablement économique, compétitif avec ce que l’Occident avait de mieux à offrir, et disponible ouvertement, téléchargeable par n’importe qui.
Même OpenAI l’a admis, argumentant en mars que DeepSeek montrait que « notre avance n’est pas large et se rétrécit ». OpenAI souhaite même interdire des modèles comme DeepSeek R1 car, selon eux, « DeepSeek pourrait être contraint par le Parti communiste chinois de manipuler ses modèles pour causer des dommages. Et parce que DeepSeek est simultanément subventionné par l’État, contrôlé par l’État et librement disponible, il coûtera aux utilisateurs leur vie privée et leur sécurité. »
Alors que Google avec Gemini 2.5 et la nouvelle génération d’images de ChatGPT ont repris les gros titres début avril, DeepSeek se prépare à livrer un nouveau choc au système avec DeepSeek R2, attendu plus tard en avril ou en mai.
Mais à vrai dire, beaucoup d’entre vous connaissent déjà tout cela. Ce que vous ne savez peut-être pas, ce sont les objectifs et les convictions exprimés dans des interviews désespérées par le fondateur secret de DeepSeek, le milliardaire Liang Wenfeng, un homme qui doit maintenant se cacher des foules de fans adorateurs dans sa propre ville natale, selon un ami à qui il a envoyé un message, et qui a fui sa province natale avec sa famille pour échapper à l’attention médiatique.
Les origines de Liang Wenfeng
Vous ne connaissez peut-être pas non plus la première opération d’IA qui a fait la fortune de Liang avant de dérailler, ni la beauté de certaines innovations techniques derrière le viral DeepSeek R1. Ou comment les laboratoires occidentaux comme OpenAI et Anthropic ont riposté avec leurs propres récits dans les jours et semaines qui ont suivi la sortie de R1.
Il y a franchement tellement de choses que tant de gens ignorent sur l’entreprise DeepSeek et ce qu’elle représente. La vérité est que DeepSeek est une baleine prise dans un filet de récits, dont la plupart se contredisent.
Alors, rapprochons-nous autant que possible de la vérité derrière ces récits et de ce que cette vérité nous dit sur l’avenir. Car si Liang Wenfeng a raison et que l’intelligence artificielle générale est à « 10, 5, voire 2 ans », alors cette histoire concerne bien plus qu’un homme, un laboratoire, ou même une nation.
Voici ce qu’un des partenaires commerciaux de Liang a dit de cet homme qu’on pensait avoir 40 ans : « C’était ce type très ringard avec une coiffure terrible quand ils se sont rencontrés pour la première fois. Il parlait de construire un cluster de 10 000 puces pour entraîner ses propres modèles d’IA. Nous ne l’avons pas pris au sérieux. »
Bien sûr, il y a de nombreux leaders en IA avec des coiffures terribles. Alors, qu’est-ce qui distingue Liang Wenfeng ? Il n’a certainement pas toujours été focalisé sur la résolution de l’intelligence et sa mise à disposition gratuite. C’est difficile de devenir milliardaire de cette façon, comme vous pouvez l’imaginer.
Des débuts dans la finance algorithmique
Liang a obtenu son diplôme universitaire dans un monde qui s’effondrait. Certains d’entre vous seront trop jeunes pour se souvenir de la panique de septembre 2008, lorsque la pyramide financière construite sur les sables du marché immobilier américain s’est effondrée. Quoi qu’il en soit, vous pourriez comprendre la motivation de Liang pour essayer de comprendre les modèles au sein du chaos qui se déroulait et prédire ce qui allait suivre.
Certains ont tenté de l’attirer dans différentes directions alors qu’il opérait depuis un petit appartement à Chengdu, dans le Sichuan. Pas moi, bien que j’étais là-bas à Chengdu à la même époque, apprenant le mandarin. Non, c’était le fondateur de ce qui allait devenir DJI, le principal fabricant mondial de drones, qui a tenté de recruter Liang, mais en vain. Liang avait de plus grandes ambitions.
Après avoir obtenu un master en ingénierie de l’information en 2010, Liang s’est lancé dans une série de créations d’entreprises entre 2013 et 2016, culminant avec la création du fonds spéculatif Highflyer en février 2016. Chaque entité qu’il a créée incluait l’objectif fondamental d’utiliser l’apprentissage automatique pour découvrir les modèles derrière les mouvements de microsecondes, voire de nanosecondes, sur les marchés financiers. Des modèles et des paradigmes qu’aucun humain ne pourrait détecter seul. De l’intelligence artificielle, si vous voulez, avant qu’elle ne soit appelée ainsi.
Bien sûr, jusqu’en mai 2023, Liang décrivait encore son objectif en termes financiers : « Notre recherche plus large vise à comprendre quel type de paradigmes peut décrire entièrement le marché financier et s’il existe des moyens plus simples de l’exprimer. »
Quoi qu’il en soit, cela a fonctionné en attirant 9,4 milliards de dollars d’actifs sous gestion à la fin de 2021 et en fournissant des rendements qui, dans certains cas, étaient de 20 à 50 points de pourcentage supérieurs aux indices boursiers de référence. Liang a littéralement fait fortune. Il était milliardaire avant ses 35 ans et au sommet du monde.
Toutes les stratégies de marché de Highflyer utilisaient l’IA, et oui, ils l’appelaient déjà ainsi. Ils avaient même un superordinateur alimenté par 10 000 GPU Nvidia. Il ne développait peut-être pas à ce stade des modèles de langage comme une petite startup américaine, OpenAI, l’avait fait l’année précédente en 2020 avec GPT-3. Mais son IA avait-elle vraiment résolu le chaos des marchés financiers ? Avait-il réussi ?
Les leçons d’un échec
Non. C’est là que l’histoire commence à devenir intéressante. Le système d’IA de Liang, construit avec une équipe d’un peu plus de 100 personnes, avait un défaut de personnalité problématique. Il prenait franchement trop de risques. Il doublait ses paris quand il sentait qu’il avait raison.
Et ce n’était pas tout. Le fonds spéculatif lui-même, Highflyer, était devenu présomptueux. Il volait trop près du soleil. Le succès d’un fonds spéculatif, comme vous pouvez l’imaginer, attire davantage d’investissements. Si vous ne limitez pas la taille de votre fonds, et Liang ne l’a pas fait à temps, vous avez parfois trop d’argent à déployer de manière intelligente. Vos transactions sont copiées. Votre avantage devient moins net.
Après avoir connu une forte baisse, Highflyer a donc exprimé sa profonde culpabilité en public et a pris des mesures pour limiter davantage qui pouvait investir avec eux. Oui, au cas où vous seriez curieux, ils ont tiré les leçons de leur expérience et continuent d’exister en tant que fonds spéculatif aujourd’hui avec un certain succès. En fait, entre 2018 et début 2024, Highflyer a surpassé l’équivalent chinois de l’indice S&P, bien qu’avec quelques trébuchements depuis lors.
Et oui, comme nous le savons, Liang n’a pas abandonné l’IA. Il était maintenant riche et pouvait se permettre une organisation dédiée au décodage non seulement des systèmes financiers, mais aussi de la nature de l’intelligence générale elle-même. Cet effort s’appellerait DeepSeek, et il a d’abord été formé en tant qu’organisme de recherche en avril 2023.
Y a-t-il eu des cicatrices pour Liang de son expérience précédente avec l’IA ? Il y en a une qui pourrait avoir été reportée dans l’article que DeepSeek a produit sur leur premier grand modèle de langage ou chatbot. De par son expérience, Liang savait que l’IA pouvait être capricieuse et pas toujours un partenaire fiable. DeepSeek a donc ajouté cette clause de non-responsabilité pour leur premier chatbot, DeepSeek V1, publié en novembre 2023 :
« Nous reconnaissons profondément l’importance de la sécurité pour l’intelligence artificielle générale. La prémisse pour établir un modèle d’intelligence artificielle véritablement utile est qu’il possède des valeurs compatibles avec celles des humains et manifeste de l’amitié envers l’humanité. »
Le retard initial de DeepSeek
Avant de continuer, ne prétendons pas que beaucoup d’entre nous en Occident prêtaient attention aux développements décrits jusqu’à présent. À cette époque, bien sûr, OpenAI en était déjà à GPT-4, qui montrait des étincelles d’AGI. GPT-4 a été publié publiquement en mars 2023, bien avant que DeepSeek ne soit officiellement fondé en juillet de la même année.
Mais au moins la scène était plantée. Un milliardaire reclus avec une décennie et demie d’expérience dans l’utilisation de l’intelligence artificielle pour comprendre le monde. Un homme qui avait fait fortune et qui était maintenant, selon ses propres termes, simplement motivé par l’exploration. « Les gens », a dit Liang, « pensent qu’il y a une logique commerciale cachée derrière DeepSeek, mais c’est principalement motivé par la curiosité. »
Pourquoi DeepSeek R1 a-t-il capté l’attention du monde au début de 2025 ? Pourquoi a-t-il divisé les opinions et bouleversé les marchés ? Était-ce parce que le monde pouvait voir le processus de réflexion du modèle de langage avant qu’il ne donne sa réponse finale ? Était-ce parce que le modèle DeepSeek était si économique ou parce que le modèle et les méthodes qui le sous-tendent étaient si ouverts et accessibles ? Ou était-ce parce qu’un modèle aussi performant venait de Chine, qui était censée avoir un an de retard sur la frontière occidentale ?
Nous allons examiner chacune de ces possibilités. Mais une chose était certaine concernant le DeepSeek de l’été 2023 : il était effectivement très en retard sur les laboratoires occidentaux d’IA. À cette époque, n’oubliez pas que non seulement GPT-4 était disponible, mais aussi la première version de Claude d’Anthropic, Bard de Google et même Llama 2 de Meta.
DeepSeek, soit dit en passant, a accordé une attention particulière à Llama 2. Ce modèle n’était peut-être pas aussi intelligent sur les benchmarks clés que GPT-4, mais il était dit à « poids ouverts », ce qui signifie que presque tout le monde pouvait télécharger, modifier et déployer le modèle comme bon lui semblait. Un modèle n’est bien sûr rien sans ses poids ou ses milliards de valeurs numériques ajustables utilisées pour calculer les sorties.
Pour être clair, les poids ouverts ne sont pas tout à fait la même chose que l’open source. Pour être open source, nous aurions besoin de voir les données qui ont servi à l’entraînement du modèle, la source, pour ainsi dire, ce que nous ne savons pas et ne savons toujours pas.
La prophétie de l’exclusivité
Malgré certains modèles comme Llama 2 étant à poids ouverts, des leaders clés au sein des laboratoires occidentaux d’IA affirmaient que la frontière appartiendrait de plus en plus à ceux qui garderaient secrète la méthodologie derrière leur entraînement de modèle de langage, comme le faisait OpenAI. Voici Ilya Sutskever, alors scientifique en chef d’OpenAI, qui disait : « Il y aura toujours un écart entre les modèles ouverts et les modèles privés, et cet écart pourrait même augmenter. »
Sam Altman, PDG et co-fondateur d’OpenAI, est allé plus loin. Ce n’était pas seulement que les secrets de recherche devenaient un fossé. L’argent l’était aussi. En juin 2023 en Inde, Sam Altman a répondu à une question sur la possibilité pour une équipe disposant de seulement 10 millions de dollars de concurrencer OpenAI. Sa réponse est devenue pour moi un commentaire plus large sur la possibilité pour n’importe quelle startup d’entrer dans la course et de construire un modèle de langage véritablement intelligent :
« Écoutez, voici comment ça fonctionne : nous allons vous dire qu’il est totalement désespéré de nous concurrencer sur l’entraînement des modèles de fondation. Vous ne devriez pas essayer, et c’est votre travail d’essayer quand même. Je crois ces deux choses, et je pense que c’est assez désespéré. »
Mais ce n’est pas tout, un mois plus tôt en mai, il l’avait exprimé encore plus franchement : « Il y aura les meilleurs modèles à source fermée des hyperscalers et il y aura les progrès que la communauté open source réalise, et ce sera, vous savez, quelques années de retard ou peu importe, peut-être deux ans de retard. »
Comme nous l’avons appris quelques semaines avant ces commentaires, Liang avait lancé ce qui allait devenir DeepSeek.
En bref, rappelez-vous ce contexte lorsque vous vous étonnez de la réaction excessive à DeepSeek R1 en janvier 2025. Ce n’était pas censé être comme ça. L’intelligence était censée provenir de l’échelle du modèle de base, mesurée non seulement par le nombre de dizaines de milliers de GPU Nvidia utilisés pour calculer les paramètres de ce modèle, mais aussi par la quantité de données sur lesquelles il était entraîné.
Cela semblait logique que personne ne puisse concurrencer sans le soutien d’hyperscalers multi-billionnaires comme Microsoft ou Google. Liang était riche, mais pas à ce point.
La vision de Liang : recherche avant profit
Liang devait savoir que ces leaders des laboratoires occidentaux pensaient que ce qu’il était sur le point de tenter était impossible, mais il a quand même essayé. Il ne serait pas non plus distrait par la loi de la monétisation rapide via des routes comme des abonnements à 20 dollars.
Liang a déclaré en mai 2023 : « Notre objectif est clair : se concentrer sur la recherche et l’exploration plutôt que sur les domaines verticaux et les applications. »
DeepSeek a donc concentré ses efforts de recrutement sur ceux qui étaient jeunes, curieux et, crucialement, chinois. D’ailleurs, même les Chinois revenus de l’Occident n’étaient pas favorisés. Liang a ajouté : « DeepSeek privilégie la capacité plutôt que les diplômes. Les rôles techniques de base sont principalement occupés par des diplômés récents ou ceux ayant un à deux ans d’expérience. »
Ces soldats intellectuels ne seraient pas détournés par la nécessité de publier selon un calendrier pour concurrencer OpenAI. C’est ce qui avait conduit Google à publier un Bard bâclé et Microsoft un Bing comiquement maladroit.
« Nos normes d’évaluation sont très différentes de celles de la plupart des entreprises. Nous n’avons pas d’indicateurs clés de performance ou de quotas. Selon notre expérience, l’innovation nécessite aussi peu d’intervention et de gestion que possible, donnant à chacun l’espace pour explorer et la liberté de faire des erreurs. »
Les premières innovations techniques
Cela dit, la première paire de modèles d’IA de DeepSeek publiée en novembre 2023 n’était pas exactement stupéfiante par son originalité. Comme je l’ai mentionné plus tôt, leur modèle de langage V1 s’inspirait fortement des innovations du LLM Llama 2 de Meta. Et aucune de leurs publications de novembre, DeepSeek Coder ou V1, n’a fait de vagues dans les médias occidentaux, l’attention à cette époque, vous vous en souvenez peut-être, étant concentrée sur Sam Altman temporairement licencié d’OpenAI pour manque de franchise.
Mais il y avait quelques signes que DeepSeek était effectivement focalisé sur le long terme, comme chacun de leurs articles le prétend explicitement. Par exemple, DeepSeek a exclu les questions à choix multiples de leur ensemble de données d’entraînement sur mesure afin que leurs modèles ne surperforment pas sur les tests formels mais déçoivent en pratique. Et c’est une leçon que tous les laboratoires d’IA n’ont pas apprise à l’époque, ni même maintenant.
DeepSeek a écrit : « Le surajustement aux benchmarks ne contribuerait pas à atteindre une véritable intelligence dans le modèle. »
Au début de 2024, l’équipe DeepSeek était en pleine effervescence. En janvier, ils ont innové avec une approche novatrice pour obtenir plus d’intelligence de leurs modèles pour moins. Gardez à l’esprit que des modèles comme Llama 2 utilisaient leur ensemble complet de poids, souvent des dizaines ou des centaines de milliards, pour calculer une réponse à une invite utilisateur.
Cela contrastait avec l’approche du mélange d’experts, qui n’était pas du tout originale à DeepSeek. L’approche du mélange d’experts implique l’utilisation d’un sous-ensemble spécialisé de ces poids en fonction de l’entrée utilisateur, exploitant ainsi un ou plusieurs experts du modèle, si vous voulez.
Mais réfléchissez-y, puisque seul un sous-ensemble des poids du modèle répondrait à chaque requête, chaque expert au sein du modèle devait avoir un degré de capacité commune. Un peu comme forcer Messi à passer des heures par semaine à s’entraîner comme gardien de but. Et oui, je parle de football. Si vous êtes américain, DeepSeek pourrait-il utiliser l’approche du mélange d’experts, qui est très efficace, sans cet inconvénient majeur ?
Vous avez probablement deviné la réponse d’après mon ton, mais oui, dans leur article « Towards Ultimate Expert Specialization », voici l’innovation : certains sous-réseaux experts au sein du modèle de langage seraient toujours activés dans n’importe quelle réponse. Ces gars-là pourraient être les généralistes. Cela signifiait que les experts restants, comme Messi, pourraient vraiment se concentrer sur ce qu’ils font de mieux.
Et oui, au cas où vous penseriez à l’avance, c’est aussi l’un des nombreux secrets derrière le modèle de base qui alimente DeepSeek R1, le phénomène mondial.
DeepSeek ne faisait que s’échauffer. En avril 2024, ils ont publié DeepSeek Math, un petit modèle qui égalait les performances en mathématiques de GPT-4, un Goliath de modèle en comparaison.
La montée en puissance technique
Qu’en est-il alors de DeepSeek Math ? L’un des secrets du succès du modèle était l’optimisation des politiques relatives de groupe au nom peu évocateur. Une bouchée, mais c’est une méthode d’entraînement incorporée plus tard, vous l’avez deviné, par le célèbre DeepSeek R1.
Voici donc le résumé de cette innovation d’entraînement impressionnante. Tous les modèles de langage doivent faire plus que simplement prédire le mot suivant, ce qu’ils apprennent en pré-entraînement. Ils ont besoin d’un post-entraînement pour passer de la prédiction du mot le plus probable à l’ensemble de mots le plus utile selon les humains et, finalement, pour le raisonnement mathématique ou les étapes de codage, le mot le plus correct.
Pensez-y comme ceci. Vous ne pouvez pas être plus intelligent que Twitter si tout ce que vous faites est vous entraîner à prédire le prochain tweet. Cela nécessite un renforcement soigneux des poids du modèle qui produisent ces sorties souhaitées.
Oui, c’était bien connu à la mi-2024. Mais quelle était la magie derrière GRPO, la nouvelle saveur d’apprentissage par renforcement de DeepSeek ? DeepSeek avait besoin d’efficacité pour combattre les géants de l’IA. Les approches courantes d’apprentissage par renforcement à l’époque utilisaient des modèles critiques massifs et maladroits pour évaluer les réponses au fur et à mesure qu’elles étaient générées afin de prédire lesquelles se dirigeaient vers le succès.
DeepSeek a abandonné ce critique gourmand en mémoire et a plutôt généré un groupe de réponses en parallèle, vérifié l’exactitude oui/non des sorties finales, puis, en utilisant le score relatif de chaque réponse au-dessus ou en dessous de la précision moyenne du groupe de réponses, renforcé les poids réussis dans le modèle et diminué les autres.
Groupe de réponses, score relatif, renforcement des poids les plus réussis. Optimisation des politiques relatives de groupe.
En prenant du recul, chacune de ces innovations était désespérément essentielle pour maintenir DeepSeek à portée des mastodontes de ressources derrière ChatGPT, Claude et Gemini. En mai 2024, le laboratoire de Liang a livré DeepSeek V2 avec un autre miracle d’efficacité, l’attention latente multi-têtes.
Ne vous inquiétez pas, il n’y aura pas de plongée profonde sur celui-ci, mais pardonnez-moi juste quelques mots sur la façon dont DeepSeek a encore une fois réduit la taille nécessaire d’un modèle pour atteindre un niveau de performance similaire.
Considérez l’attention latente multi-têtes comme permettant à plusieurs parties du modèle de partager des poids communs qui sont cachés ou latents lorsqu’ils « prêtent attention ». Si vous vous demandez, ce mécanisme d’attention est le processus par lequel les modèles de langage déduisent quelles parties du texte précédent sont les plus pertinentes pour prédire le mot suivant. Partager ces poids latents ou cachés en prêtant attention signifiait que ce modèle avait besoin de moins de poids au total. Poids partagés, modèle plus petit, plus grande efficacité. DeepSeek V2.
Face aux restrictions technologiques
D’accord, nous avons compris. Le point a probablement été fait maintenant. Le DeepSeek R1 n’était pas un ex nihilo créé à partir de rien. Il a été construit sur le dos d’innovations minutieuses accumulées sur près de 2 ans et rendues ouvertes au monde, financées, bien sûr, par un milliardaire reclus.
Mais attendez, pourquoi Liang avait-il besoin de tant d’efficacité ? Parce que oui, DeepSeek avait effectivement obtenu 10 000 GPU Nvidia A100 pour le trading boursier de Highflyer en 2021, mais le gouvernement américain ne voulait pas laisser les entreprises chinoises mettre la main sur des puces plus puissantes.
L’une après l’autre, des restrictions ont été introduites par l’administration Biden pour empêcher la Chine d’obtenir la puissance de calcul qu’elle souhaitait. Nvidia a essayé de contourner ces restrictions en inventant de nouvelles puces qui passaient sous ces limites. Mais chaque fois, une nouvelle restriction suivait.
Comme Liang lui-même l’a dit à l’été 2024 : « L’argent n’a jamais été le problème pour nous. Les interdictions d’expédition de puces avancées sont le problème. »
C’est le contexte. La marche vers une IA plus puissante était maintenant présentée comme une course, voire une « guerre » qui a peut-être inévitablement déclenché une vague de contrebande digne d’un film d’espionnage, avec Singapour et la Malaisie comme points focaux pour les entreprises chinoises faisant passer des puces au-delà du nouveau blocus.
Pensez-y. Certains des GPU utilisés en Chine pour calculer, disons, la recette de la ratatouille de R1, ont apparemment été introduits clandestinement dans des valises avec, je suppose, peu de place pour des chaussettes de rechange.
La montée vers R1
Et cela nous amène à la fin de 2024, la scène étant presque plantée. Liang Wenfeng travaillant dans son bureau de Hangzhou, lisant sans cesse des articles, écrivant du code et participant à des discussions de groupe comme n’importe quel autre chercheur chez DeepSeek, bien avant dans la nuit. Cette entreprise maintenant dans la ligne de mire des initiés de l’industrie de l’IA, mais pratiquement inconnue du public en dehors de la Chine. Une baleine qui monte, mais encore juste sous la surface alors qu’une nouvelle année se levait.
Liang Wenfeng en avait assez que l’Occident invente des choses et que la Chine intervienne pour imiter et monétiser ces innovations. Ce qui est plus surprenant, c’est qu’il l’a dit publiquement. « La Chine devrait progressivement devenir un contributeur au lieu de profiter gratuitement », a-t-il déclaré lors de sa dernière interview médiatique connue.
Il a continué en citant directement la loi d’échelle, une découverte empirique d’abord faite dans la Silicon Valley selon laquelle les modèles de langage s’améliorent de manière prévisible plus ils ont de paramètres et plus ils s’entraînent sur des données de haute qualité.
« Au cours des 30 et quelques dernières années de la vague informatique », a déclaré Liang à propos de la Chine, « nous n’avons fondamentalement pas participé à une véritable innovation technologique. Nous sommes habitués à ce que la loi de Moore tombe du ciel, allongés à la maison en attendant 18 mois pour que du meilleur matériel et logiciel émerge. C’est ainsi que la loi d’échelle est traitée. »
Non, Liang voulait que DeepSeek soit un pionnier qui donne sa recherche, que d’autres pourraient ensuite apprendre et adapter.
Dans les derniers jours de 2024, DeepSeek a produit DeepSeek V3. C’était le rassemblement et la mise à l’échelle de toutes les innovations dont vous avez déjà entendu parler, ainsi que d’autres. Pourquoi ne pas ajouter un peu d’entraînement à précision mixte où, dans votre obsession pour l’efficacité, vous atteignez des niveaux tels que vous écrivez du code à la main pour optimiser les instructions au GPU Nvidia lui-même plutôt que de vous fier aux bibliothèques CUDA populaires que Nvidia fournit ?
Avec V3, les culpix de DeepSeek étaient presque usés à force de trouver des pépites d’efficacité. Et bien que l’heure était tardive, les laboratoires occidentaux constituaient enfin des équipes pour étudier les percées de DeepSeek. Dario Amodei, PDG d’Anthropic, a déclaré que « le V3 de DeepSeek était en fait la vraie innovation » et ce qui, selon lui, « aurait dû attirer l’attention il y a un mois. Nous l’avons certainement fait. »
La naissance de DeepSeek R1
DeepSeek savait qu’il fallait continuer à creuser, car OpenAI avait montré qu’il y avait de l’or juste devant. En septembre 2024, OpenAI avait présenté un nouveau type d’apprentissage par renforcement qui utilisait les chaînes de pensée qu’un modèle produit avant de soumettre une réponse finale.
Comme nous l’avons vu, un modèle dont le but est de prédire ce qu’un humain sur le web pourrait dire ensuite sera toujours limité en capacité. La série O d’OpenAI a montré que si vous induisez d’abord le modèle à raisonner à voix haute, puis appliquez une pression d’optimisation brutale en faveur des sorties qui correspondent à des réponses vérifiablement correctes dans des domaines comme les mathématiques et le codage, vous optimisez ainsi la continuation la plus techniquement précise et dévoilez un tout nouveau terrain de progrès de raisonnement à explorer.
Grâce à Liang Wenfeng, DeepSeek était là, prêt et attendant, pioche à la main. L’ajout de cette innovation de raisonnement à voix haute sur leur modèle de base V3 a produit DeepSeek R1 Zero. Oui, Zero. Mais les pensées de ce modèle pouvaient être un peu capricieuses en langage et en style. Donc, avec quelques ajustements et réglages fins supplémentaires, DeepSeek a pu dévoiler DeepSeek R1, l’IA dont des milliards de personnes parlent.
Dans de nombreux benchmarks techniques, R1 a légèrement dépassé les performances du modèle original O1 d’OpenAI de septembre, et dans d’autres, il n’était pas loin derrière.
En étant ouverts avec leur recherche, DeepSeek a montré au monde comment les modèles de langage, sous cette pression d’optimisation implacable pour produire des réponses correctes, pouvaient parfois revenir en arrière et même se corriger. C’était un moment eurêka pour les modèles et pour le monde, réalisant à quel point un laboratoire chinois secret était proche de noms familiers comme ChatGPT.
Ne vous méprenez pas, il y avait d’autres innovations dans l’article sur DeepSeek R1, notamment comment leurs modèles les plus grands et les plus intelligents pouvaient efficacement distiller une grande partie de leurs capacités dans des modèles plus petits, épargnant à ces modèles une grande partie du travail pour atteindre ce niveau.
L’explication simplifiée de cette innovation est que les modèles qui peuvent tenir sur des téléphones et des ordinateurs domestiques ou être servis à un coût incroyablement bas de n’importe où sont maintenant prêts en 2025 à être plus intelligents que les modèles géants les plus intelligents de 2024.
Pourquoi la viralité de DeepSeek R1 ?
Mais pourquoi la viralité de DeepSeek R1 ? Était-ce le fait que vous pouviez voir ces pensées dans le chat DeepSeek qui rendait le modèle si convaincant ? Ou le fait qu’il était si bon marché qu’il a fait plonger les actions de Nvidia de près d’un demi-billion de dollars ? Liang avait lui-même déclaré qu’il « ne s’attendait pas à ce que les prix soient si sensibles pour tout le monde ».
D’accord. Était-ce l’ouverture de DeepSeek qui était si choquante ? 100 récits ont fleuri dans les jours et semaines après la sortie de DeepSeek R1, mais tous ne sont pas ce qu’ils semblent être.
Tout d’abord, abordons ces chaînes de pensée. Rétrospectivement, il pourrait sembler évident que gagner un accès privilégié aux pensées d’un modèle allait toujours se démarquer dans un marché encombré. OpenAI ne donnait que des résumés aseptisés des pensées de ses modèles O1 après tout.
Mais attendez, dans les heures qui ont suivi la sortie de R1, Google nous a donné Gemini 2.0 Flash Thinking, un modèle qui montrait ses pensées. L’impact de ce modèle sur la scène peut être décrit au mieux comme une vague mignonne à côté du tsunami R1.
Alors, ce devait être le prix, n’est-ce pas ? Selon certaines mesures, R1 est 95 % moins cher que les modèles compétitivement capables d’OpenAI. Mais attendez, Gemini 2 Flash est encore moins cher. Et encore une fois, juste une polite salve d’applaudissements.
D’accord, peut-être est-ce le fait que le modèle n’a coûté que 6 millions de dollars à entraîner, ce qui est une somme dérisoire dans les circonstances.
Le débat sur les coûts et l’avenir
Eh bien, sur ce point, prenons un moment pour au moins entendre l’argument des leaders des laboratoires occidentaux sur le prix, même si vous avez des raisons de douter de leur motivation.
Dario Amodei, PDG d’Anthropic, a d’abord répondu en décrivant comment les coûts avaient déjà constamment diminué de 4 fois par an pour la même quantité de capacité de modèle. Il a même écrit un article complet pour clarifier en partie que « même si vous prenez le coût d’entraînement de DeepSeek à sa valeur nominale, ils sont au mieux dans la tendance et probablement même pas ça ».
Il a admis que ce qui était différent, selon ses termes, était que « l’entreprise qui a été la première à démontrer les réductions de coûts attendues était chinoise ».
Les investissements GPU de DeepSeek à eux seuls représentent plus de 500 millions de dollars. Même après avoir pris en compte les contrôles à l’exportation, leurs dépenses en capital pour les serveurs s’élèvent à environ 1,6 milliard. Même une session d’entraînement de 6 millions de dollars n’apparaît pas de nulle part.
En effet, les choses deviennent si coûteuses pour DeepSeek que même les vastes poches de Liang atteignent leurs limites. Selon des rapports de février 2025, Liang envisage de lever des fonds externes pour la première fois, potentiellement auprès du groupe Alibaba et de fonds affiliés à l’État chinois.
Pourquoi tant d’argent serait-il nécessaire ? Eh bien, ce n’est pas seulement pour servir les dizaines de millions d’utilisateurs actifs quotidiens que DeepSeek possède maintenant. C’est pour faire évoluer l’intelligence du modèle davantage, jusqu’à l’AGI, une intelligence artificielle aussi générale dans son applicabilité que la nôtre.
Selon Altman et Amodei, ajouter cette optimisation de raisonnement à voix haute à un excellent modèle de base peut d’abord rapporter des dividendes démesurés, ce qui a permis à DeepSeek de rattraper son retard. Mais pour chevaucher cette courbe ascendante vers les environs de l’AGI, vous aurez besoin de dizaines de milliards de dollars de puissance de calcul, argumentent-ils.
Amodei a écrit : « Nous sommes donc à un point de croisement intéressant où il est temporairement le cas que plusieurs entreprises peuvent produire de bons modèles de raisonnement. Cela cessera rapidement d’être vrai à mesure que tout le monde montera plus haut dans la courbe d’échelle sur ces modèles. »
Faire de l’IA, a-t-il dit, qui est plus intelligente que presque tous les humains dans presque tous les domaines, nécessitera des millions de puces, des dizaines de milliards de dollars au moins, et se produira très probablement en 2026, 2027.
Même en oubliant DeepSeek un instant, c’est une citation assez remarquable. S’il a raison, et c’est un grand si, ces jet-setters d’entreprises chinoises vont devoir faire passer en contrebande Dieu sait combien de GPU sous leurs pyjamas de voyage.
Mais Amodei a un mot à ce sujet. « Un milliard de dollars d’activité économique peut être caché, mais il est difficile de cacher cent milliards ou même dix milliards. Un million de puces peut aussi être physiquement difficile à faire passer en contrebande. »
Sans suffisamment de puces, selon cet argument, DeepSeek R2 et R3 ne peuvent qu’être distancés. Nous ne savons tout simplement pas si les ingénieurs de DeepSeek peuvent continuer à construire au rythme de ceux qui travaillent avec des briques d’un milliard de dollars.
La Chine : au-delà de DeepSeek
Pendant que nous parlons de la Chine, il y a un autre récit que je veux démystifier. On vous a peut-être dit que DeepSeek est un cas unique et que la Chine manque d’environnement pour favoriser correctement l’innovation en IA.
Eh bien, même si vous mettez de côté les merveilles de texte à image et de texte à vidéo produites par des outils comme Cling AI, vous êtes toujours face à un paysage plein de nouveaux modèles comme Dobau 1.5 Pro de ByteDance, les créateurs de TikTok, publié quelques heures après R1. Oh, et une semaine avant cela, nous avons eu Spark Deep Reasoning X1 d’iFlyTech et Huawei, qui bat les modèles occidentaux aux examens techniques chinois et est utilisé par près de 100 millions de personnes déjà.
Et le 20 janvier, le jour même où R1 a été publié, la société de recherche chinoise Moonshot AI a lancé le modèle multimodal Kimi K1.5, atteignant 96,2 % sur un benchmark mathématique populaire. Oui, c’est un meilleur score que l’O1 d’OpenAI.
Donc, quiconque dit que R1 est la dernière chose que nous entendrons de la Chine pendant un certain temps pourrait bien devenir nerveux, surtout avec R2 apparemment imminent.
La question de l’ouverture
Maintenant, je ne peux pas couvrir les modèles de langage chinois présents et futurs sans mentionner un autre récit qui pourrait avoir besoin d’être démystifié. Que la nature ouverte de l’article DeepSeek R1 se reflète dans l’ouverture du modèle lui-même.
Parce que, comme beaucoup d’entre vous le savent, le modèle n’est pas libre de renvoyer des sorties sur des sujets chinois sensibles. Non pas qu’il ne sache rien à leur sujet, cependant.
J’ai posé une simple question : « Parlez-moi des Ouïghours » et j’ai obtenu cet ensemble de pensées intrigantes. Cela doit conduire à une réponse finale éclairante et profondément réfléchie. Nous en sommes sûrs, n’est-ce pas ? Pas vraiment.
Oui, le modèle R1 de DeepSeek a été publié sous licence MIT. Donc, bien sûr, d’autres se sont empressés d’adapter le modèle pour, eh bien, dire sa vérité.
Quoi qu’il en soit, je suis sûr que c’est un sujet sur lequel DeepSeek et Liang Wenfeng, s’ils regardent, sont exceptionnellement désireux que je passe à autre chose.
Les contre-narratifs occidentaux
Alors, passons à la façon dont OpenAI a tenté brièvement d’établir son propre contre-récit, qui était que DeepSeek aurait pu accéder illicitement aux chaînes de pensée du modèle O1 d’OpenAI et s’entraîner sur elles. Pensez-y comme volant effectivement l’intelligence qui avait été si soigneusement cultivée par OpenAI.
Un porte-parole d’OpenAI a déclaré : « Nous savons que des groupes en Chine travaillent activement à utiliser des méthodes, y compris ce qu’on appelle la distillation, pour essayer de répliquer des modèles d’IA américains avancés. Nous sommes conscients et examinons des indications selon lesquelles DeepSeek aurait pu indûment distiller nos modèles. Nous prenons des contre-mesures agressives et proactives pour protéger notre technologie et continuerons à travailler en étroite collaboration avec le gouvernement américain pour protéger les modèles les plus capables construits ici. »
Note annexe, en parlant de travailler avec le gouvernement, certains législateurs américains proposent que les utilisateurs américains soient emprisonnés s’ils utilisent DeepSeek R1.
Retour au contre-récit qui est mort dans l’imagination publique presque aussitôt qu’il a été essayé pour une raison évidente. OpenAI eux-mêmes sont poursuivis par tout le monde, y compris la grand-mère arrangée de mon deuxième cousin, pour avoir sciemment entraîné sur des œuvres protégées par le droit d’auteur sans compensation. On soupçonne donc que peu auront de la sympathie pour ces entreprises si d’autres comme DeepSeek distillent quoi que ce soit de ChatGPT, même s’ils en avaient besoin, ce qui n’était probablement pas le cas, d’ailleurs.
L’ère de l’IA automatisée
Quoi qu’il en soit, le raisonnement est en train d’être automatisé à un rythme effréné. Aussi difficile à croire que soit l’ascension de DeepSeek, pour moi, ce n’est en fait qu’un indicateur d’une histoire plus grande. Nous entrons en fait dans une ère d’intelligence artificielle automatisée.
Et non, les modèles ne seront pas toujours mieux décrits comme des outils semblables à une calculatrice. Si une IA dans trois ans peut faire 95 % de mon travail ou du vôtre, à quel moment ne suis-je qu’un outil responsable uniquement de cliquer sur soumettre ?
Bien sûr, nous n’en sommes pas encore là. Bien sûr, c’est DeepSeek R1 après tout. Et oui, les humains sont encore à peu près aux commandes, ce qui signifie que je suppose que la seule chose absolument garantie est le drame.
C’était donc l’histoire de DeepSeek telle que nous la connaissons. Qu’est-ce qui attend le taciturne Liang Wenfeng et son équipe de sorciers ? L’article R1 suggère qu’ils sont profondément dans l’esprit, travaillant toujours sur le contexte infini et un remplacement pour l’architecture légendaire du transformateur derrière chaque modèle de langage célèbre.
Mais prenez juste le contexte infini où nous pouvons imaginer un modèle fourni avec tout ce que vous avez jamais entendu ou vu ou dit et référençant n’importe lequel d’entre eux lorsqu’il vous donne sa prochaine réponse. DeepSeek le fera-t-il ? Atteindront-ils l’AGI en premier ? Le rendraient-ils réellement open source ? Si oui, le monde saisira-t-il ne serait-ce qu’une fraction de ce qui se passe avant ce jour ou seulement après ?
Eh bien, il ne faudra probablement pas longtemps avant que nous le sachions.
Featured image by appshunter.io on Unsplash

