L’État Actuel de l’IA pour la Robotique : L’Émergence de l’Intelligence Incarnée
Alors que Google lance Gemini pour la robotique, examinons plus largement l’état de l’intersection de ces deux domaines en pleine évolution.
L’IA Incarnée : Une Révolution en Marche
Le domaine de l’IA incarnée progresse à une vitesse fulgurante, en grande partie grâce aux avancées des modèles d’IA qui alimentent la robotique. Il y a moins de 6 mois, Elon Musk dévoilait le robot Optimus de Tesla lors d’un événement très médiatisé sur les robotaxis. Bien que ces robots aient été visuellement impressionnants, les jours suivants ont révélé qu’ils étaient largement contrôlés à distance en coulisses.
Autant cette révélation a fourni des munitions aux détracteurs d’Elon, autant elle reflétait une réalité fondamentale : l’IA incarnée est extrêmement difficile à maîtriser, particulièrement lorsqu’il s’agit de modèles d’IA fonctionnant pour des tâches généralisées. Jusqu’à présent, les robots humanoïdes nécessitaient un entraînement spécifique pour chaque action, les modèles d’IA aidant principalement avec les cas limites et les petites déviations. Par exemple, les robots Optimus pouvaient facilement préparer un cocktail pendant la démonstration, probablement parce qu’ils avaient été entraînés pour cela. Cependant, ils auraient eu des difficultés si un client leur avait demandé de lui serrer la main sans contrôle humain.
Gemini Robotics : La Solution de Google pour l’IA Incarnée
C’est précisément ce problème que le nouveau modèle d’IA de Google DeepMind tente de résoudre. Appelé Gemini Robotics, ce nouveau modèle est construit sur Gemini 2.0, héritant de sa fonctionnalité multimodale native, ce qui signifie que le modèle peut traiter des entrées visuelles, textuelles et audio.
Dans leur billet de blog d’annonce, DeepMind a écrit : « Pour être utiles et serviables pour les gens, les modèles d’IA pour la robotique ont besoin de trois qualités principales :
- Ils doivent être généraux, c’est-à-dire capables de s’adapter à différentes situations
- Ils doivent être interactifs, c’est-à-dire capables de comprendre et de répondre rapidement aux instructions ou aux changements dans leur environnement
- Ils doivent être habiles, c’est-à-dire capables de faire le genre de choses que les gens font généralement avec leurs mains et leurs doigts, comme manipuler soigneusement des objets »
DeepMind a en fait construit une paire de modèles pour alimenter différentes parties de la fonctionnalité requise pour la robotique généralisée :
- Le premier est leur modèle avancé Vision-Langage-Action (VLA), qui est fonctionnellement similaire à d’autres LLM multimodaux, mais inclut les actions physiques comme nouveau mode de sortie
- Le second est appelé Gemini Robotics ER (pour Embodied Reasoning, ou raisonnement incarné), qui applique le principe des modèles de raisonnement aux environnements physiques
Comme l’a expliqué DeepMind, le modèle possède « une compréhension spatiale avancée ». C’est similaire à la façon dont la génération actuelle d’agents IA est conçue : les créateurs d’agents utilisent généralement un modèle de raisonnement pour la planification et l’analyse de la situation, puis transmettent cela à un modèle séparé pour l’exécution. On peut donc raisonnablement considérer l’IA incarnée comme des agents dotés d’yeux et de mains.
DeepMind affirme que le modèle robotique de Google « exploite la compréhension du monde de Gemini pour généraliser à de nouvelles situations et résoudre une grande variété de tâches immédiatement, y compris des tâches qu’il n’a jamais vues auparavant pendant l’entraînement ».
Comme le modèle est construit sur un LLM, il a une compréhension générale des entrées linguistiques et peut recevoir des instructions en langage naturel. L’une des vidéos de démonstration montre une table avec divers fruits et conteneurs disposés. L’IA incarnée reçoit une commande vocale et place habilement la banane dans le conteneur transparent sans avoir reçu d’entraînement spécifique pour cette tâche.
Google a également démontré un grand pas en avant dans la motricité fine, l’IA incarnée étant capable de fermer un sac Ziploc et même de réaliser une grue en origami.
Le modèle de raisonnement Google Robotics ER est ajouté pour aider à augmenter la capacité du robot à planifier l’exécution de nouvelles tâches. DeepMind écrit : « En combinant le raisonnement spatial et les capacités de codage de Gemini, Gemini Robotics ER peut instantanément créer de nouvelles capacités. Par exemple, lorsqu’on lui montre une tasse à café, le modèle peut instancier une prise à deux doigts appropriée pour la saisir par la poignée et une trajectoire sûre pour s’en approcher. »
Les fonctionnalités des LLM de raisonnement se transposent également dans le monde réel, ce qui signifie que les robots peuvent faire des choses comme jouer au morpion ou compléter un puzzle de mots en utilisant des tuiles de Scrabble.
La percée clé ici est que ce système de modèles permet aux robots de passer d’une gamme étroite de tâches spécifiques à des applications beaucoup plus généralisées. Kirana Gopala Krishnan, qui travaille sur l’équipe d’IA incarnée chez DeepMind, a posté : « Gemini Robotics est sorti et c’est le VLA le plus avancé au monde. Je suis particulièrement impressionné par les résultats de suivi d’instructions. C’est la première fois que j’ai personnellement senti que la construction d’une intelligence incarnée générique est à portée de main, comme un robot prenant vie. »
Mark Gurman de Bloomberg a souligné que les implications vont bien au-delà de Google DeepMind : « L’intelligence artificielle sera au cœur de tout, et vraiment, l’expression matérielle ultime de l’IA est la robotique – être capable de comprendre comment un humain agit, d’apprendre artificiellement à partir de données et d’imiter un humain, c’est ce qu’est un robot. »
Les Autres Acteurs Majeurs de l’IA Incarnée
Figure AI : Un Concurrent Sérieux
Google n’est pas le seul à travailler sur cette forme de modèles d’IA incarnée. Début février, Figure AI a abandonné son partenariat avec OpenAI pour utiliser leurs propres modèles développés en interne. Quelques semaines plus tard, nous avons pu voir ce que ces modèles peuvent faire.
La vidéo de démonstration montrait une paire de robots travaillant ensemble pour ranger une livraison d’épicerie. Les robots n’avaient jamais vu les articles auparavant, mais étaient capables de raisonner sur l’endroit où la bouteille de ketchup devrait aller dans le réfrigérateur.
Si l’on essaie de faire des comparaisons directes, certains pourraient penser que cette démonstration n’était pas aussi impressionnante que les démos de Google de cette semaine, les robots agissant beaucoup plus lentement, semblant moins habiles et promettant une gamme plus limitée de tâches. Mais d’un autre côté, Figure AI a sa propre conception et production humanoïde, tandis que Google démontrait son logiciel sur du matériel provenant d’autres entreprises.
Néanmoins, les deux entreprises semblent travailler sur la même conception de système de base consistant à associer un modèle de raisonnement à un modèle d’exécution. Lorsqu’ils ont abandonné l’accord avec OpenAI, le PDG de Figure AI, Brett Adcock, a déclaré : « Nous avons découvert que pour résoudre l’IA incarnée à grande échelle dans le monde réel, vous devez intégrer verticalement l’IA robotique. Nous ne pouvons pas externaliser l’IA pour la même raison que nous ne pouvons pas externaliser notre matériel. »
Figure AI a commencé à déployer ses robots dans des environnements réels. Ils ont un programme pilote actuellement en cours dans l’usine de fabrication de BMW en Caroline du Sud et un second contrat non divulgué que l’entreprise dit pouvoir potentiellement leur permettre d’atteindre 100 000 robots expédiés. L’entreprise a effectivement montré une vidéo de robot triant des colis, ce qui fait penser à beaucoup que le client est l’une des grandes entreprises de livraison américaines.
Ce sont tous deux des clients commerciaux, mais une grande partie de l’enthousiasme et de l’appétit, du moins du point de vue des investisseurs, est ce qui semble à beaucoup comme l’avenir inévitable d’amener les humanoïdes dans le cadre domestique.
Figure AI semble également avoir démontré que les entreprises humanoïdes ont dépassé la phase spéculative, du moins en termes de valorisations. En février dernier, lors de leur série B, l’entreprise était évaluée à un très décent 2,6 milliards de dollars, mais le mois dernier, Bloomberg a rapporté qu’ils sont en pourparlers pour lever leur série C à une valorisation de 39,5 milliards de dollars.
Les Avancées Chinoises en Robotique
Bien sûr, nous vivons maintenant aussi dans le monde de DeepSeek et Manisi, et tout le monde se demande ce qui se passe en Chine. On a l’impression que chaque jour sur X, on peut voir une vidéo d’un robot produit en Chine réalisant un exploit de dextérité.
Plus tôt ce mois-ci, une entreprise appelée X Robot est devenue virale avec un robot féminin extrêmement réaliste doté d’un bon modèle vocal. Cette vidéo avait le facteur science-fiction poussé au maximum, donc qui sait à quel point le produit est réel. Cela dit, avec ce que nous avons vu de l’IA chinoise ces derniers mois, je ne l’exclurais certainement pas.
Une entreprise chinoise qui produit définitivement des produits réels est UBTECH. Ils avaient une énorme gamme de robots de diverses formes au CES en janvier. Vous avez peut-être également vu la dernière vidéo virale de l’entreprise montrant un robot de kung-fu donnant un coup de pied dans un bâton tenu par une personne.
Beaucoup de vidéos des salons professionnels ont encore un opérateur humain aux commandes, ce qui nous ramène exactement à la raison pour laquelle ce modèle Google est potentiellement une nouvelle si importante, car Google a peut-être simplement démontré une voie pour combler les lacunes là où l’IA incarnée chinoise fait actuellement défaut.
UBTECH propose ces unités G1 à partir de 16 000 dollars, mais il faut penser que ces prix vont baisser précipitamment dans les années à venir.
NVIDIA : Le Moteur Derrière l’IA Incarnée
Un autre acteur clé de l’IA incarnée qui mérite d’être mentionné dans ce tour d’horizon est NVIDIA. Le fabricant de puces ne travaille pas sur des robots en soi, mais ils ont certainement fait de grandes avancées dans l’IA utilisée pour les entraîner.
En janvier, NVIDIA a lancé leur modèle de fondation Cosmos World. Ce modèle génératif peut être utilisé pour créer des simulations virtuelles de scénarios du monde réel pour l’entraînement des robots. Les améliorations des modèles de monde ont été l’une des grandes percées au cours des derniers mois, plusieurs startups montrant leurs propres versions de la technologie en développement.
L’idée est qu’un jumeau numérique d’un robot peut être placé dans une simulation, ce qui permet de générer rapidement des données d’entraînement synthétiques. Cela n’aide pas nécessairement avec le problème de raisonnement et de généralisation sur lequel Google travaille, mais cela permet de grandes améliorations en matière de dextérité et d’entraînement aux mouvements spécifiques.
La révélation de Cosmos en janvier s’est également accompagnée de déclarations très optimistes du PDG de NVIDIA, Jensen Huang. Il a déclaré que « le moment ChatGPT pour la robotique générale est juste au coin de la rue ». Il a également prononcé son discours d’ouverture devant un graphique montrant le secteur de l’IA devenant exponentiel après l’IA agentique, la vague dans laquelle nous sommes actuellement au milieu. Le graphique a atteint un pic encore plus élevé pour l’IA physique, composée de voitures autonomes et de robotique générale.
Pendant son discours, Huang a déclaré que les voitures autonomes seraient probablement « la première industrie robotique de plusieurs billions de dollars ». Et bien qu’à ce stade, nous n’ayons rien vu qui ressemble à un humanoïde entièrement capable à usage général, Huang a mentionné qu’il s’attend à ce que les produits de NVIDIA alimentent un milliard de robots humanoïdes dans les années à venir.
L’Écosystème des Startups en IA Incarnée
Jusqu’à présent, j’ai abordé beaucoup des grands acteurs, mais même au-delà de ces entreprises, les capital-risqueurs sont définitivement attentifs au point d’inflexion potentiel que nous atteignons avec l’IA incarnée.
Plus tôt cette semaine, Dexterity Inc. a levé 95 millions de dollars à une valorisation de 1,65 milliard de dollars pour construire des robots capables d’une dextérité semblable à celle des humains. L’argumentaire de l’entreprise est remarquablement similaire à la façon dont Google a décrit ses critères pour la robotique généralisée.
Le PDG Samir Menon a décrit que ses robots « peuvent toucher et reconnaître des objets, sont conscients de leur environnement et y répondent de manière appropriée, et se déplaceront avec grâce et s’ajusteront selon les besoins ». Il a ajouté : « La combinaison de ces trois éléments est ce que nous concevons et ce que nous croyons qui conduira l’avenir de l’IA physique. »
Revier Jane, partenaire chez Lightspeed Ventures, a déclaré qu’il investissait plus d’argent dans l’entreprise parce qu’il croit que « nous atteignons un point d’inflexion pour l’IA physique ».
Également le mois dernier, une startup appelée Apptronik a levé 350 millions de dollars en financement de série A à une valorisation non divulguée. L’entreprise est issue de l’Université du Texas et travaille sur des robots humanoïdes depuis plus d’une décennie. La levée de fonds a inclus la participation de Google, DeepMind s’associant à l’entreprise pour fournir l’IA qui anime leurs robots. En fait, vous pouviez voir les robots Apptronik mettre à l’épreuve l’IA incarnée de Google dans les vidéos de démonstration de cette semaine.
Cette levée représentait beaucoup plus d’argent que les 28 millions de dollars que l’entreprise avait levés avant ce tour, et le PDG Jeff Cardenas a commenté que ce méga-tour était nécessaire parce que ses robots sont presque prêts pour la production. Il a déclaré : « Ce que 2025 représente pour Apptronik et l’industrie humanoïde, c’est vraiment démontrer un travail utile dans ces applications avec ces premiers adoptants et clients, puis une véritable commercialisation et mise à l’échelle se produisant en 2026 et au-delà. »
Expliquant le partenariat avec Google, Cardenas a déclaré qu’il était beaucoup plus logique que de créer leurs propres modèles, ajoutant : « Nous croyons qu’en ce moment, Google est au sommet du jeu et construit certains des meilleurs modèles au monde. »
Conclusion : Un Point d’Inflexion pour l’IA Incarnée
Voilà donc une mise à jour rapide sur l’état de l’IA incarnée, l’intersection de l’IA et de la robotique. Nous assistons à une accélération sans précédent dans ce domaine, avec des avancées majeures tant au niveau des modèles d’IA que des capacités physiques des robots.
Les partenariats stratégiques entre les géants de l’IA comme Google et les fabricants de robots spécialisés comme Apptronik montrent que l’industrie se dirige vers une approche plus intégrée. Pendant ce temps, les valorisations astronomiques de startups comme Figure AI suggèrent que les investisseurs anticipent une adoption massive de cette technologie dans un avenir proche.
La course est lancée entre les États-Unis et la Chine pour dominer ce secteur émergent, avec des implications potentiellement transformatrices pour l’industrie, les services et éventuellement nos foyers. La question n’est plus de savoir si les robots humanoïdes à intelligence générale deviendront une réalité, mais quand et comment ils s’intégreront dans notre quotidien.
