L’IA Open Source ‘Militarisée’ de la Chine et l’Effondrement Technologique Américain

L’IA Open Source ‘Militarisée’ de la Chine et l’Effondrement Technologique Américain

La Robotique Chinoise: Impressionnante mais Inquiétante

Une actualité importante nous vient de Chine, où des chercheurs enseignent à un robot à danser. Toutes ces séquences sont réelles, aucune n’est générée par IA. C’était fascinant à regarder jusqu’à un certain moment où j’ai cessé d’apprécier. Pouvez-vous repérer l’instant précis? Oui, c’est là… ils lui ont donné une hache! Pourquoi lui donner une hache, créant ainsi ce cauchemar? Imaginez cette machine vous pourchassant avec deux haches, prête à vous découper. C’est notre réalité, c’est notre futur.

Je ne peux m’empêcher d’être impressionné, mais pourquoi fallait-il faire cette démonstration avec deux haches, le robot courant d’avant en arrière en découpant des objets? C’est à la fois phénoménal et terrifiant.

Si vous ne le saviez pas, la Chine excelle dans les domaines de la robotique et de l’IA. Un phénomène que j’observe depuis un certain temps est que beaucoup de ces avancées sont en open source. De nombreux modèles d’IA chinois de pointe et des entreprises leaders en robotique en Chine publient leurs recherches et leur code en open source, les rendant disponibles gratuitement pour tous. Même lorsqu’ils proposent l’hébergement et l’exécution des modèles, c’est souvent beaucoup moins cher que leurs homologues occidentaux.

La Stratégie Chinoise Selon Balaji Srinivasan

Balaji Srinivasan (Stanford, Coinbase, a16z), qui a déjà fait des prédictions assez précises dans le passé, partage son analyse sur la Chine et l’open source. Son point de vue semble devenir l’opinion dominante.

Il anticipe une véritable déferlante de modèles d’IA open source chinois couvrant tous les domaines, de la vision par ordinateur à la robotique en passant par la génération d’images. Nous assistons déjà à un flux constant de ces technologies venant de Chine. La sortie des modèles Deep Seek a effacé en une journée près d’un billion de dollars des marchés mondiaux.

Balaji infère des déclarations publiques que l’objectif apparent est d’éliminer les profits du logiciel d’IA, puisque la Chine gagne de l’argent sur le matériel compatible avec l’IA. En résumé, ils veulent faire à la technologie américaine ce qu’ils ont déjà fait à l’industrie manufacturière américaine: la copier, l’optimiser, la développer à grande échelle, puis écraser l’original occidental avec des prix bas.

Voici sa logique:

  1. La Chine a remarqué que la sortie de Deep Seek a fait perdre 1 billion de dollars aux capitalisations boursières technologiques américaines
  2. La compétence principale de la Chine est l’exportation d’objets physiques plutôt que de logiciels
  3. L’autre compétence clé de la Chine est d’exporter à une échelle si massive que tous les producteurs étrangers font faillite, lui permettant de dominer le marché (voir ce qu’ils font aux constructeurs automobiles allemands et japonais)
  4. La Chine est consciente de son manque de prestige mondial, ayant été historiquement considérée comme un imitateur, mais devenir numéro un en IA est désormais un objectif atteignable et une question de fierté nationale
  5. Deep Seek est devenu viral en Chine, et sa nature open source permet à tous de l’intégrer rapidement, jusqu’au niveau des fonctionnaires locaux et des entreprises obscures

La Chine dispose maintenant de ressources illimitées pour ce projet. Tout comme l’État américain soutient l’infrastructure et les entreprises d’IA, l’État chinois soutient certainement leurs efforts d’IA de manière similaire, voire plus intensive.

La Chine estime avoir une opportunité de frapper les entreprises technologiques américaines, d’accroître son prestige, d’aider son économie interne et de réduire les marges des logiciels d’IA au niveau mondial.

L’Enjeu des Infrastructures d’IA Mondiales

Un point important à ajouter: dans les prochaines décennies, l’infrastructure d’IA mondiale sera construite sur les technologies fondamentales de quelqu’un – que ce soit les États-Unis, l’open source, ou la Chine. De nombreuses entreprises comme Google, OpenAI et Anthropic l’ont mentionné: tous les systèmes mondiaux seront construits sur les leaders de l’IA, quels qu’ils soient.

Si c’est la Chine avec sa technologie open source, tout le monde construira dessus. Si ce sont les États-Unis, tout le monde construira sur leurs fondations. C’est un enjeu que les États-Unis prennent très au sérieux.

Le problème est que les laboratoires américains de pointe ne pourront pas générer de profits si l’alternative est un logiciel open source gratuit ou extrêmement bon marché. La compétition devient presque impossible, non seulement à cause des prix, mais aussi parce que vous pouvez exécuter un logiciel open source sur votre machine locale, l’affiner, le quantifier, le transformer en d’autres modèles pour vos propres cas d’utilisation, et éliminer toute censure.

Par exemple, les modèles Deep Seek incluaient certaines censures pro-chinoises – certains sujets que le gouvernement chinois ne voulait pas voir abordés étaient bloqués. Mais très rapidement après la sortie du modèle, Perplexity l’a modifié en une version orientée États-Unis qui permettait d’aborder ces sujets.

Il est difficile pour une entreprise de concurrencer une version open source, quelle que soit son activité, surtout si elle est aussi performante. Même si elle n’est pas tout à fait aussi bonne, le simple fait qu’elle soit open source est important et complique la concurrence.

La Stratégie Économique Chinoise

Si la Chine parvient à saper les entreprises technologiques américaines, elle fera plutôt des profits en vendant du matériel compatible avec l’IA à bas prix et de qualité croissante, des maisons intelligentes aux voitures autonomes, en passant par les drones grand public et les robots canins.

Balaji estime que la Chine essaie de faire avec l’IA ce qu’elle fait toujours: étudier, copier, optimiser, puis mettre en faillite tout le monde avec des prix bas et une échelle énorme. Il n’est pas certain qu’ils réussiront au niveau des applications, mais il pourrait être difficile pour les développeurs de modèles d’IA propriétaires de récupérer leurs coûts fixes élevés associés à l’entraînement de modèles de pointe lorsque d’excellents modèles open source sont disponibles.

Il est surprenant que le pays du « Grand Pare-feu » soit soudainement le pays de l’IA open source, mais c’est cohérent d’une autre manière: la Chine se concentre sur tout ce qu’il faut pour gagner, même jusqu’à adopter des valeurs occidentales partiellement abandonnées comme l’open source.

Ils ont intégré la censure dans les modèles Deep Seek publiés, mais d’une manière facilement contournée en dehors de la Chine. On pourrait en conclure qu’ils ne se soucient pas vraiment de ce que les non-Chinois disent en dehors de la Chine dans d’autres langues, tant que cela n’interfère pas avec les affaires intérieures de la Chine.

Les Progrès Techniques de Deep Seek

Récemment, Deep Seek a mis à jour sa version V3 (le 24 mars), avec une amélioration majeure des performances de raisonnement. Il est important de noter qu’il ne s’agit pas d’un modèle de raisonnement spécifique, mais de leur modèle de base. Il dispose de compétences de développement front-end plus solides et de capacités d’utilisation d’outils plus intelligentes.

La ligne bleu clair représente le Deep Seek V3 original, tandis que la ligne bleu foncé représente le nouveau Deep Seek. Comme on peut le voir, il y a soit une petite amélioration, soit une amélioration assez importante dans chacune des catégories. La ligne gris foncé représente GPT-4.5, et on constate que Deep Seek s’en est considérablement rapproché, étant meilleur dans certains cas d’utilisation et légèrement en retard dans d’autres.

Bien que chaque entreprise utilise ses propres astuces pour montrer que son modèle est le meilleur, de nombreux utilisateurs en ligne testent ces modèles et confirment que Deep Seek V3 est impressionnant. Certains disent qu’il n’est peut-être pas meilleur que Claude 3.7 Sonnet en matière de codage, mais qu’il surpasse la plupart des autres modèles. La mise à jour de Deep Seek V3 représente une différence considérable en matière de conception front-end.

Jarvis VAA: Une Percée Chinoise dans l’IA pour les Jeux

Une autre avancée intéressante vient de Chine avec l’article de recherche Jarvis VAA, un modèle vision-langage-action qui joue à Minecraft. Certains des auteurs viennent de l’Université de Pékin. Ce modèle, fonctionnant sur Qwen 2 (un modèle open source de seulement 7 milliards de paramètres), surpasse toutes les autres approches utilisées précédemment.

Il est bien meilleur pour effectuer diverses actions dans le jeu: miner des blocs, tuer des entités, fabriquer des objets, fondre des objets. Il surpasse les autres modèles dans presque toutes les catégories.

Les chercheurs ont trouvé une nouvelle approche pour entraîner ces modèles de vision qui semble très efficace. Normalement, ces modèles sont entraînés sur des séquences d’experts – des joueurs de Minecraft accomplissant des tâches. Par exemple, pour montrer comment couper un arbre dans Minecraft, on montre un joueur frappant un arbre jusqu’à ce qu’il se transforme en bois.

Leur approche diffère en commençant par des connaissances textuelles du monde. Par exemple, à la question « qu’est-ce qu’un bateau? », le modèle répond avec une description complète de l’objet dans le contexte du jeu: « C’est un véhicule pilotable utilisé principalement pour le transport rapide des joueurs et des mobs passagers sur les étendues d’eau. Les radeaux de bambou ont un aspect différent mais fonctionnent de manière identique aux autres bateaux. »

Cette formation aide le modèle à comprendre en profondeur le fonctionnement du monde du jeu. Ensuite, ils l’entraînent à décrire visuellement ce qu’il voit, en interprétant l’environnement en termes de jeu. Puis ils font de l’ancrage visuel (identifier des objets spécifiques) et enfin des trajectoires de gameplay (associer des actions aux commandes qui les produisent).

Leurs expériences montrent que cette post-formation sur des tâches non liées aux trajectoires conduit à une amélioration significative de 40% par rapport au meilleur agent de référence sur un ensemble diversifié de tâches atomiques. Ils ont rendu open source le code, les modèles et la base de données pour favoriser la recherche future.

Manis AI: L’Exploitation Intelligente de l’Infrastructure Open Source

Manis AI est un autre exemple qui utilise l’infrastructure open source et promet de rendre une grande partie de son travail open source à l’avenir. C’est extrêmement impressionnant. Bien qu’il utilise les modèles d’Anthropic pour fonctionner, la façon dont ils ont tout assemblé est très impressionnante.

Ils utilisent Linux, un système open source gratuit, une machine virtuelle sur laquelle tourne cette distribution Ubuntu, et l’API d’Anthropic pour faire fonctionner leurs modèles. On pourrait dire que ce n’est qu’une surcouche, mais le point important est que ça fonctionne bien, très bien même.

Les Prévisions de Revenus d’OpenAI et le Défi Open Source

OpenAI a des prévisions de revenus audacieuses. Ils prévoient que leurs revenus annuels seront multipliés par 100 d’ici 2029, ce qui serait excellent pour OpenAI, pour les autres entreprises d’IA, et pour NVIDIA, car une grande partie de ces revenus serait réinvestie dans l’achat de puces Nvidia.

Bien sûr, toutes les autres entreprises d’IA verraient une augmentation similaire de leurs revenus, à moins que pour chacun de ces produits, il n’existe une version open source disponible. Si cette version open source est aussi bonne, ce serait formidable, mais avec l’open source, elle n’a même pas besoin d’être parfaite à 100%. Ce compromis sera différent selon les cas d’utilisation et les entreprises.

Si un modèle est bon à 90% ou 80%, mais soit gratuit (si exécuté localement) soit très peu coûteux (si exécuté dans le cloud), il devient à un certain point très difficile de justifier le paiement du coût de détail de ces modèles propriétaires s’il existe d’autres options open source.

Unitree Robotics: L’Impressionnante Robotique Chinoise en Action

Vous avez probablement vu plusieurs vidéos d’Unitree Robotics, qui fait beaucoup de choses vraiment cool. L’un de leurs robots a battu le record du sprint le plus rapide pour un robot bipède l’année dernière (je crois que ce record tient toujours, mais je n’en suis pas certain à 100%).

Leurs robots sont très impressionnants. Regardez celui-ci – il semble très agile. Oh, je vois ce qui va se passer… il glisse mais ne tombe pas! C’est impressionnant. Je ne pourrais certainement pas faire ça. C’est très bon.

Évidemment, ce mouvement n’a pas été capturé par motion capture, car le robot a dû s’adapter à la physique, à l’élan et à la force en temps réel. Ce n’est pas comme si quelqu’un avait pu scripter ce mouvement – le robot a dû utiliser ses capteurs et déterminer comment s’équilibrer alors qu’il glissait sur le béton.

Une grande partie de ces comportements provient probablement d’une forme d’imitation des mouvements humains, soit par capture vidéo, soit par motion capture. Mais il y a aussi beaucoup de démonstrations où il est évident que le robot doit réagir au monde réel – s’il est poussé, il doit percevoir son environnement et réagir de manière autonome.

Ces robots sont entraînés dans une simulation (comme NVIDIA Isaac Gym), où ils apprennent ces compétences, puis sont déployés dans le monde réel où ils peuvent reproduire ces compétences de manière efficace et robuste.

Unitree a rendu open source certains de leurs outils, comme l’Unitree RL Gem (pour l’apprentissage par renforcement) destiné à leurs différents robots. Ils fournissent beaucoup d’outils aux développeurs qui souhaitent construire sur leur plateforme.

Il existe de nombreux autres exemples où des produits chinois comportent des composants open source. Comme Balaji le dit, il s’attend à une déferlante de projets open source en provenance de Chine. S’il a raison (et son raisonnement semble sensé), si la Chine parvient à détruire le coût des logiciels et à ne vendre que le matériel, qui pourrait vraiment rivaliser avec elle sur la scène mondiale?

L’Art de la Guerre, Édition IA

Comme je l’ai répondu à Balaji, c’est comme « L’Art de la Guerre, Édition IA » – faisant référence à Sun Tzu, l’ancien général militaire chinois qui a écrit des règles sur la façon de mener des guerres. C’est comme un nouveau chapitre de ce livre, version IA. Je pense que cela pourrait être une tactique 100% efficace, et c’est assez brillant.

Évidemment, c’est un peu inquiétant que cela se produise à un niveau plus agressif, potentiellement militaire, où les nations cherchent à se saper mutuellement. La compétition entre pays pour avoir une avance technologique est bonne, l’innovation est bonne, et le fait que les logiciels open source soient disponibles pour plus de personnes et de développeurs est bien sûr positif.

Je suis très enthousiaste à l’idée que si quelqu’un construit tout un écosystème robotique que les développeurs peuvent utiliser pour créer toutes sortes de choses, cela semble très positif pour le monde. Si la Chine fabrique des robots bon marché que tout le monde peut entraîner pour ses propres cas d’utilisation partout dans le monde, cela semble incroyable.

Mais le fait qu’il y ait cette compétition entre les États-Unis et la Chine qui pourrait potentiellement déboucher sur quelque chose de plus militaire est évidemment très préoccupant. En d’autres termes, il y a des risques que cela échappe à tout contrôle, et la prochaine génération de guerre avec l’IA, les drones et les robots semble très effrayante.

Le Mémo « We Have No Moat » de Google: Une Vision Prophétique

Cela rappelle le mémo « We Have No Moat » (« Nous n’avons pas d’avantage concurrentiel ») qui a fuité de Google en mai 2023. À cette époque, OpenAI faisait de grands progrès avec leur moment ChatGPT, et ce mémo provenait probablement d’un chercheur de Google.

Ce n’est pas nécessairement le point de vue de Google ou même de ses employés, mais cette personne semblait avoir entrevu l’avenir. Voici ce qu’elle écrivait:

« Nous regardons beaucoup par-dessus nos épaules OpenAI. Qui va franchir la prochaine étape? Quel sera le prochain mouvement? Mais la vérité inconfortable est que nous ne sommes pas en position de gagner cette course aux armements, et OpenAI non plus. Pendant que nous nous chamaillons, une troisième faction nous dépasse discrètement. Je parle bien sûr de l’open source. »

Cette ligne est frappante: « La communauté open source fait des choses avec 800 dollars et un modèle de 13 milliards de paramètres que nous avons du mal à faire avec 10 millions de dollars et des modèles de 540 milliards de paramètres. »

Nous avons vu cela avec le moment Deep Seek: « Bien que nos modèles conservent encore un léger avantage en termes de qualité, l’écart se réduit à une vitesse étonnante. Les modèles open source sont plus rapides, plus personnalisables, plus privés et, à taille égale, plus capables. Cela a de profondes implications: nous n’avons pas de sauce secrète. »

Les conclusions qu’ils en tirent pourraient encore être pertinentes aujourd’hui. Ils suggèrent de « posséder l’écosystème » et de « laisser l’open source travailler pour nous ». Beaucoup de cela a commencé avec la fuite de Meta (Facebook) – nous ne savons pas si c’était une vraie fuite ou si c’était intentionnel, mais leurs modèles sont devenus un succès mondial viral.

Soudainement, l’écosystème mondial – tous les développeurs du monde entier – a commencé à travailler sur ce modèle et à l’améliorer. Comme cette personne le dit: « Parce que le modèle divulgué était le leur, ils ont effectivement recueilli toute une planète de travail gratuit. Puisque la plupart des innovations open source se produisent au sommet de leur architecture, rien ne les empêche d’incorporer directement ces innovations dans leurs produits. »

Basiquement, la planète entière s’est mise à améliorer les systèmes de Meta, et Meta a dit « Cool, merci » et a pu commencer à utiliser ces améliorations. C’est une énorme innovation, amélioration et travail gratuits pour Meta.

« La valeur de posséder l’écosystème ne peut être surestimée. Google l’a fait avec succès avec Chrome et Android. En possédant la plateforme où cette innovation se produit, Google s’établit comme un leader d’opinion et un définisseur de direction, gagnant la capacité de façonner le récit sur des idées plus grandes que lui-même. »

C’est le parallèle avec ce qui se passe ici. Si nous (les États-Unis) essayons de garder les modèles secrets et propriétaires, et que la Chine adopte une approche de terre brûlée en rendant tout open source, il y aura éventuellement des modèles open source de vision, des modèles de texte, des modèles de codage, des environnements d’entraînement de robots, etc.

Toutes les personnes intéressées par la construction et le travail sur ces technologies travailleront dans cet écosystème, contribuant à l’écosystème Deep Seek, Jarvis VA, Unitree Robotics, etc. Toute la puissance intellectuelle, le travail et l’innovation se produiront dans cet écosystème. Il sera très difficile de rattraper cette boule de neige une fois qu’elle aura commencé à rouler.

Comme le dit cette personne: « Plus nous contrôlons les modèles, plus nous rendons les alternatives open source attrayantes. Google devrait s’établir comme le leader de la communauté open source, prenant les devants et coopérant avec tout le monde. Cela signifie probablement prendre des mesures inconfortables, peut-être renoncer à une partie du contrôle sur les modèles. Nous ne pouvons pas espérer à la fois stimuler l’innovation et la contrôler. »

Si vous êtes d’accord avec ce qu’il disait à ce moment-là pour ce problème particulier, alors logiquement, en traduisant cela à un niveau national, comment les États-Unis pourraient-ils rivaliser? Ils devraient vraiment se concentrer sur la création de leur propre écosystème open source, pousser pour que davantage de modèles soient open source, commencer à construire cet écosystème et attirer les développeurs mondiaux, tous les talents, tous les utilisateurs, etc., pour publier plus de recherches et plus de projets open source. Ainsi, tout cela se produirait dans cet écosystème plutôt que dans celui de quelqu’un d’autre.

Conclusion: Un Enjeu Mondial

Que pensez-vous de tout cela? Pensez-vous que c’est le plan de la Chine d’utiliser les logiciels open source et l’IA pour saper les entreprises américaines? Balaji a-t-il raison sur la façon dont cela va se dérouler? Veulent-ils vendre le matériel et donc faire chuter le prix des logiciels en les donnant essentiellement gratuitement et en essayant de les faire correspondre à la qualité et aux capacités des logiciels américains?

Quelles sont les alternatives pour les États-Unis? Est-ce d’interdire tous les modèles chinois? Mais cela pourrait se retourner contre eux, car le reste du monde pourrait choisir d’adopter leurs modèles open source efficaces et bon marché plutôt que les modèles américains propriétaires et coûteux. Les États-Unis pourraient maintenir le contrôle à l’intérieur du pays, mais perdre sur la scène mondiale.

Ou ne vous inquiétez-vous pas de ces choses? Beaucoup de lecteurs ne sont ni des États-Unis ni de Chine, mais viennent du monde entier. Quelles perspectives avez-vous qui ne sont ni d’un côté ni de l’autre?

Êtes-vous enthousiasmé par l’open source en général, mais inquiet du fait qu’il soit peut-être utilisé à un niveau plus agressif, peut-être militaire, par des nations cherchant à se saper mutuellement? Je pense que cette conversation va prendre de plus en plus d’ampleur à l’avenir.

Featured image by engin akyurt on Unsplash