Codex d’OpenAI : Une révolution dans le développement logiciel

Codex d’OpenAI : Une révolution dans le développement logiciel

Aujourd’hui, OpenAI a présenté Codex. À ne pas confondre avec les 10 autres produits qu’ils ont déjà nommés Codex. Ce nouvel outil est alimenté par Codex 1. Sam Altman avait promis de mieux le nommer cette fois-ci, au cas où le projet décollerait. À ce stade, il est clair qu’il nous taquine. Mais la direction que prend ce projet est vraiment passionnante. Voici pourquoi.

La guerre des agents IA pour développeurs

Tout d’abord, Google I/O se tiendra dans quelques jours, et le géant s’apprête à dévoiler son propre agent IA dédié au développement logiciel. OpenAI, fidèle à ses habitudes, tente de couper l’herbe sous le pied de Google en lançant son produit avant que Google n’ait la chance de faire son annonce lors de la conférence.

Google vise à développer un agent pour l’ensemble du cycle de vie du développement logiciel. C’est-à-dire un outil qui, du début à la fin, aide les développeurs à construire leurs projets, en les accompagnant à chaque étape du processus.

Nous avons déjà vu Cursor être valorisé à 9 milliards de dollars. OpenAI a racheté Windsurf pour 3 milliards. Google construit rapidement son Firebase Studio, un autre projet très intéressant. L’objectif est d’attirer le maximum de développeurs sur sa plateforme, utilisant votre chatbot IA et vos modèles d’IA, afin que ces entreprises puissent observer l’ensemble du cycle de développement.

Car si vous demandez du code dans ChatGPT, puis que vous copiez-collez ce code dans VS Code, PyCharm ou autre, Google ou OpenAI ne peuvent pas voir si le code fonctionne ou quels problèmes il rencontre. En conservant l’ensemble du processus de développement au sein d’un seul outil, cela leur permet de collecter beaucoup plus de données et de créer de meilleurs modèles capables de gérer, comme le dit Google, l’ensemble du cycle de vie du développement.

Les révélations de l’équipe Codex

Le subreddit ChatGPT a organisé une session « Ask Me Anything » avec l’équipe Codex d’OpenAI. J’ai réussi à glisser quelques questions et nous examinerons les réponses dans un instant.

J’ai trouvé hilarant ce moment où une participante a déclaré qu’elle faisait plus confiance à Codex qu’à ses collègues en matière de code. Tout le monde a ri nerveusement, mais comme quelqu’un l’a fait remarquer : « C’est ainsi que l’AGI est arrivée. Pas avec un bang, mais avec un silence stupéfait. »

Codex est considéré comme aussi fiable, sinon plus, que nos propres collègues. Nous n’avons pas accès à ce qu’un collègue comme André a fait un jour donné en termes de logs ou de résultats de tests. Et à mesure que nous avançons vers un monde où l’IA écrit de plus en plus de code, cette vérifiabilité deviendra vraiment importante.

Comprendre le potentiel de Codex à travers un cas d’usage concret

Pour vraiment comprendre ce qui se passe et où cela nous mène, l’un des cas d’utilisation les plus intéressants se trouve sur la chaîne YouTube Sentdex. Beaucoup d’entre vous connaissent probablement cette chaîne, donc je vais sauter l’introduction.

Le créateur a acquis un robot humanoïde Unitree G1 Edu. On le voit déballer le robot pièce par pièce et l’installer sur un portique (merci à tous ceux qui ont rejoint mon livestream plus tôt et m’ont appris que ça s’appelait un portique).

Je ne peux m’empêcher de remarquer qu’il y a comme un million d’épées au mur – des katanas et diverses autres armes. Au cas où le robot deviendrait incontrôlable, l’arme la plus proche n’est pas très loin ! Mais je m’égare.

Le point intéressant est que la base de code d’Unitree G1, toute la documentation que Unitree fournit, est en grande partie open source. Mais il y a un problème : une grande partie est écrite en C++, un langage notoirement difficile et exigeant, surtout si vous n’êtes pas familier avec lui.

Je crois que Sentdex a expliqué qu’il n’avait pas beaucoup investi de temps dans l’apprentissage du C++, en tout cas pas autant que dans d’autres langages. Mais il veut pouvoir contrôler le robot, lui enseigner de nouvelles compétences et interagir avec lui.

Il y a quelques années, ses options auraient été soit d’apprendre ce langage à partir de zéro, soit d’abandonner le projet. Mais ce qu’il fait, c’est utiliser Codex. Il utilise l’installation locale de Codex, fonctionnant avec le modèle O3 d’OpenAI, et Codex agit presque comme un système d’exploitation lui permettant d’interagir avec la base de code.

Codex comme interface entre l’humain et le code

Il peut poser des questions et obtenir des explications. Il peut ajouter diverses fonctionnalités. Il peut même programmer dans d’autres langages pour construire une couche par-dessus, afin d’interagir avec le code dans un langage qu’il préfère.

Je vous encourage à regarder la vidéo car je pourrais me tromper sur certains détails, mais en gros, vous pouvez voir le modèle O3 en action. Vous pouvez dire des choses comme « explique-moi cette base de code » ou « vérifie s’il y a des bugs ».

Par exemple, il y avait une fonction pour faire marcher le robot qui ne fonctionnait pas. L’utilisateur demande : « Penses-tu que R&D Walk devrait fonctionner maintenant ? » Codex réfléchit pendant 6 secondes puis répond que oui, ce dernier changement qu’il a implémenté devrait fonctionner pour cette démarche continue. Il y avait une commande manquante qu’il a ajoutée.

Et voici ce qui se passe après avoir appuyé sur Entrée : il vous explique étape par étape ce qui va se passer. Il a lu le manuel, il a lu la base de code, il a compris ce que cela signifiait, et maintenant il vous guide avec une patience infinie, en décomposant chaque niveau selon vos besoins. Il vous explique ce qui fonctionne, ce qui ne fonctionne pas, pourquoi cela ne fonctionnait pas avant, et quelles corrections il a mises en œuvre pour s’assurer que cela fonctionne. Il dit « Essayez, et si cela ne fonctionne toujours pas », et il vous donne probablement d’autres étapes pour continuer le dépannage au cas où cette approche ne fonctionnerait pas.

Dans la vidéo suivante, on peut voir le robot se promener dans la maison. La caméra en haut à gauche montre sa vision. Une caméra est pointée vers l’extérieur pour que vous puissiez voir où il se trouve. Je suppose qu’il s’agit d’une sorte de radar LIDAR qui cartographie la maison pour qu’il puisse mieux comprendre où il se trouve. Une sorte de carte de profondeur au centre. Et si je zoome ici, on peut voir Codex fonctionner en arrière-plan, donnant un aperçu de ce qui se passe.

L’IA comme système d’exploitation

J’espère que vous comprenez ce que je veux dire. Quand on parle de l’IA comme système d’exploitation, c’est de cela qu’il s’agit. Avant, vous aviez la base de code et vous deviez interagir avec elle en tapant du code, en cliquant sur des éléments et en sachant comment faire tout vous-même.

Maintenant, de plus en plus, Codex ou tout autre programme que vous utilisez est comme une petite couche entre vous et l’ordinateur, la base de code qui interagit avec elle, ajoute des fonctionnalités, fait le codage, vous explique les choses. Vous interagissez avec elle en anglais, en langage naturel, dans la langue que vous souhaitez utiliser, et son travail consiste à faire le codage, la vérification, les tests unitaires, etc.

Les capacités de Codex

Que pouvez-vous faire avec Codex ? Énormément de choses ! Vous pouvez lui demander de refactoriser votre code s’il devient trop encombrant ou compliqué. Il peut le découper, séparer les fonctions, isoler certaines fonctionnalités. Il peut vous aider à parcourir la base de données pour en comprendre le fonctionnement en profondeur. Il peut rechercher des vulnérabilités de sécurité. Il peut faire des revues de code. Il peut ajouter divers tests unitaires pour vérifier le fonctionnement du code et s’assurer qu’il n’y a pas de problèmes. Il peut corriger des bugs, améliorer le produit et l’interface utilisateur, etc.

Ce qui est vraiment intéressant dans cette itération de Codex, c’est qu’il peut exécuter des commandes via le terminal et installer les packages que vous voulez. Vous pouvez donc cloner un dépôt GitHub, lui demander de vous l’expliquer, le familiariser avec tout ce qui s’y trouve, puis commencer à modifier le code, ajouter ce que vous voulez, vérifier les bugs, etc.

Une chose intéressante est qu’il est assez bon pour installer des projets GitHub avec des dépendances complexes. J’ai trouvé que Codex et Cloud Code sont assez bons pour installer tout cela et résoudre les problèmes qui surviennent inévitablement.

Par exemple, il y a cet environnement d’apprentissage Factorio. L’installation n’est pas une science spatiale, mais ce n’est pas facile non plus. J’ai testé cela avec Cloud Code avant que Codex ne soit disponible, et Cloud Code a réussi à configurer environ 90% de tout ce dont j’avais besoin pour l’exécuter. Ce n’est pas tout à fait parfait du premier coup, et cela a pris 20 ou 30 minutes et pas mal de crédits à payer. Mais il m’a amené à 90% du chemin.

Un aspect très ennuyeux est que vous devez rester assis pendant qu’il réfléchit et fait des choses, et c’est un peu frustrant car vous ne pouvez pas vraiment vous éloigner du clavier et faire autre chose. Ce serait génial de ne pas être lié à la machine locale que vous utilisez.

L’avenir de Codex et des agents IA

C’est là que cette nouvelle vague d’outils devient beaucoup plus intéressante. Avec Firebase Studio de Google qui fonctionne dans le cloud, dans votre navigateur, vous pouvez vous connecter à distance. Il peut fonctionner tout seul pendant que vous êtes ailleurs à faire vos propres choses. Vous n’avez pas besoin de rester assis devant le clavier à le surveiller, à attendre qu’il s’arrête et à interagir avec lui.

Je pense qu’il est assez évident où cela mène. L’avenir sera votre agent IA, une sorte de ChatGPT en mode vocal avancé qui parle dans votre oreille. Vous vaquez à vos occupations, vous allez au magasin, et il vous dit : « Oh, votre agent développeur logiciel IA a terminé la dernière tâche que vous lui avez demandée. Il a installé tout cela, que voulez-vous faire ensuite ? » Vous pouvez simplement dire verbalement : « OK, continue avec cette fonction suivante. » Il répond : « D’accord, je vous préviendrai quand ce sera terminé. » Et cette chose continue de fonctionner pendant que vous faites vos affaires.

Car, encore une fois, cela prend du temps pour télécharger physiquement les packages, les installer, les vérifier et écrire le code. Cela prend du temps, et si vous êtes devant l’ordinateur à attendre, vous ne pouvez pas vous éloigner car vous ne savez pas quand cela va se terminer. Cela peut être frustrant. Si vous pouvez échanger des SMS avec lui ou simplement discuter avec lui, si vous pouvez interagir avec lui à distance d’une manière ou d’une autre, c’est la prochaine étape. Il semble assez évident que c’est là que les choses vont. Évidemment, le mettre dans le cloud comme ils le font avec Codex et Firebase Studio de Google, c’est l’étape intermédiaire suivante vers cet avenir. C’est mon hypothèse, mais c’est là que je vois les choses aller.

Les différentes versions de Codex

Je plaisantais plus tôt sur le nombre de choses nommées Codex. Nous avons Codex CLI, un agent de codage léger qui fonctionne dans votre terminal. C’est cette chose qui essayait d’installer Factorio – c’était Cloud Code, mais Codex est très similaire et il est open source, local. Une fois installé, vous l’ouvrez sur Windows ou ce que vous utilisez, vous exécutez Codex et cela ressemble à ceci : c’est l’aperçu de recherche Codex d’OpenAI, la version fonctionnant sur O4 Mini, mais vous pouvez la changer pour O3 ou ce que vous voulez, et vous discutez simplement avec elle via cette fenêtre.

Par défaut, s’il essaie d’installer quelque chose, il va d’abord vous suggérer de l’approuver. Il existe également des moyens de le mettre en mode automatique complet pour qu’il puisse faire ce qu’il veut. Et cette chose vous demandera : « Êtes-vous sûr ? C’est dangereux ! Ne faites pas ça. » Mais vous pouvez le faire si vous le souhaitez.

Et puis il y a Codex, la chose qui a été publiée aujourd’hui. C’est la chose qui fonctionne dans votre navigateur. Je suis sur chatgpt.com/codex/onboarding. Je ne l’ai pas encore configuré, c’est l’intégration. Fondamentalement, si j’ai bien compris, vous devez l’attacher à votre GitHub. Et il semble nécessiter une authentification à deux facteurs. Mais je vais le tester très bientôt, alors revenez voir ma vidéo de test.

Car je pense que c’est l’avenir de la façon dont ces choses seront exploitées. J’ai été très impressionné par Manis AI car, à la base, c’est un système d’exploitation open source, dans ce cas, une distribution Linux appelée Ubuntu. Il est donc assis sur sa propre machine virtuelle où il peut installer ce qu’il veut. Il peut rechercher sur le web, il peut faire à peu près tout ce qu’un être humain qui sait comment faire fonctionner cet ordinateur peut faire. Il est donc assis sur son propre ordinateur à faire des recherches, à écrire du code ou à faire ce que vous lui demandez, puis il vous communique le résultat.

Et cela me semble être l’avenir. À un moment donné, nous n’interagirons plus directement avec le système d’exploitation. De plus en plus, nous interagirons avec quelque chose qui ressemble à un chatbot qui fait beaucoup de choses pour nous.

Les performances de Codex

Voyons à quel point cet outil est bon par rapport à l’exécution du modèle d’IA via un chatbot. Donc, encore une fois, Codex CLI, c’est la chose locale. Codex est ce qu’ils appellent cette chose que nous venons de regarder, où vous pouvez déléguer des tâches à un agent d’ingénierie logicielle dans le cloud.

Codex prend en charge de nombreuses tâches en parallèle. Vous pouvez lui dire de faire 10 choses, il commence à les exécuter dans le cloud, vous n’avez pas à rester assis là. Vous n’avez pas à le faire en séquence et à dire « continue, continue » ou autre. Il peut écrire des fonctionnalités, répondre à des questions sur la base de code, exécuter des tests, et il peut réellement valider du code, mais ils auront probablement une sorte d’avertissement. Il ne le fera pas sans votre permission explicite. Comme je l’ai dit, je n’ai pas encore eu l’occasion de jouer avec, mais dans certaines documentations, ils sont assez clairs à ce sujet. Il ne va pas simplement faire ce qu’il veut. Vous devez l’approuver.

Une fonctionnalité qui est nouvelle, à ma connaissance, que certains des autres outils n’ont pas utilisée, c’est qu’il y a deux façons distinctes d’interagir avec lui : « code » et « ask ». Chacune est traitée indépendamment dans un environnement isolé séparé, ce qui est probablement pour que si vous vouliez juste poser des questions sur la base de code et avoir zéro chance qu’il y touche, alors vous utilisez juste « ask », pas « code ».

Une fois que Codex a terminé sa tâche, il valide ses modifications dans son environnement. Il fait donc tout, disons, sur son propre ordinateur pour ainsi dire, puis vous pouvez, si vous le souhaitez, examiner les résultats, demander des révisions, ou vous pouvez aller de l’avant et intégrer ce code où vous voulez, dans votre environnement local par exemple. Et vous pouvez le configurer pour qu’il corresponde aussi étroitement que possible à votre environnement. Donc, quel que soit ce que vous utilisez pour développer le code, il peut essayer de correspondre à cet environnement aussi étroitement que possible.

Codex est guidé par le fichier agents.md. Et vous savez, il fonctionne mieux si vous avez configuré des environnements de développement, des configurations de test fiables et une documentation claire.

Et voici où il se situe en termes de précision sur les tâches d’ingénierie logicielle internes d’OpenAI : O4 Mini haut à 67%, O3 haut à 70%, et Codex 1 à 75%.

L’avenir de l’apprentissage par renforcement

Il y a un article très intéressant que nous avons couvert récemment, le « Absolute Zero Reasoner ». L’idée est d’utiliser deux modèles, l’un est le proposeur et l’autre est le solveur, pour s’entraîner en quelque sorte. C’est cette idée d’auto-jeu.

Au sommet IA de Sequoia Capital, un membre de l’équipe d’OpenAI parlait de la prochaine grande vague de mise à l’échelle, qui sera le calcul d’apprentissage par renforcement. Mettre de plus en plus de puissance de calcul vers l’apprentissage par renforcement.

Avec cet « Absolute Zero », ils l’appellent « raisonnement par auto-jeu renforcé avec zéro donnée ». S’éloigner des données humaines ou des données étiquetées par des humains et faire en sorte que les modèles eux-mêmes génèrent des données synthétiques et s’entraînent dessus. Similaire à ce que nous avons vu avec AlphaGo à AlphaZero, le Deepseek R10 avait certaines des mêmes idées.

Basiquement, j’ai juste harcelé tout le monde chez OpenAI. Ils se font poser des questions comme : font-ils quelque chose avec les idées de cet article « Absolute Zero » ? L’un des chercheurs d’OpenAI qui a travaillé sur Codex en est conscient. Ils sont probablement en train de l’incorporer d’une manière ou d’une autre. Ce n’est pas une réponse claire, mais on dirait qu’ils sont enthousiastes à propos de ces approches potentielles.

Dans une question différente que j’ai posée, un autre membre de l’équipe Codex d’OpenAI m’a dirigé vers cette idée. Ils ont dit : « Nous avons quelques paris de recherche à plus long terme, comme plusieurs agents travaillant ensemble à surveiller. » Et ce lien était vers Nome Brown, qui est chez OpenAI X Meta, et c’était en fait du 19 septembre 2024, mais ils disent qu’ils recrutent des ingénieurs en apprentissage automatique pour une nouvelle équipe de recherche multi-agents. « Nous considérons le multi-agent comme une voie vers un meilleur raisonnement IA. »

Nome Brown était l’IA de diplomatie Cicero de Meta, si vous vous en souvenez. C’était un projet de recherche fascinant. Il a également travaillé sur une sorte d’IA de poker surhumaine ainsi que sur OpenAI O1. Il semble donc qu’il travaille sur une sorte d’auto-jeu multi-agents ou peu importe comment ils y font référence.

Je pense que le point important ici est – et prenez cela avec un grain de sel car nous ne savons pas où cela va, nous connectons juste les points – évidemment, beaucoup de gens qui travaillent là-dessus, les chercheurs, ne peuvent pas partager beaucoup d’informations. Donc, au moment où nous voyons quelque chose sortir, c’est généralement assez tard. C’est après qu’ils l’aient déjà découvert, ou je devrais dire que cela pourrait être longtemps après qu’ils l’aient découvert.

Par exemple, l’une des choses que j’ai trouvées avec Alpha Evolve qui était si fascinante, ce sont les résultats qui étaient incroyablement excitants et qui semblent être un grand pas en avant. Eh bien, ces découvertes provenaient de l’exécution de ce modèle sur Gemini 2.0. Donc, pas la dernière génération de modèles. Par exemple, le public a accès à Gemini 2.5 Pro. Et je pense qu’il est très probable qu’au Google I/O, nous verrons une sorte de modèle de niveau supérieur annoncé. Je ne fais que deviner, mais peut-être Gemini 2.5 Ultra ou peut-être autre chose. Et les résultats d’Alpha Evolve ont été implémentés dans divers projets d’infrastructure Google il y a plus d’un an.

Donc, nous ne savons pas ce qui nous attend, mais si nous devions deviner, il semble que Google, OpenAI et les autres entreprises rassemblent toutes les pièces dont ils ont besoin pour créer ces agents de codage surhumains.

La stratégie commerciale derrière Codex

L’une des pièces pour OpenAI : ils ont parlé à Cursor. Ils ont tenté d’acheter Cursor. Je suppose que cela ne s’est pas produit pour une raison ou une autre. Ils ont fini par acheter Windsor pour 3 milliards. Et le but de cela était en partie de créer ce volant d’inertie d’utilisateurs utilisant la plateforme, travaillant sur du code, améliorant le code, ce qui donne des données à OpenAI sur la façon dont il est utilisé, ce qui fonctionne, ce qui ne fonctionne pas. Cela leur permet d’améliorer davantage le modèle et cela continue bien sûr à améliorer l’utilisabilité pour les utilisateurs, améliore les modèles, et c’est une sorte d’effet de volant d’inertie.

Ce qui n’existe pas vraiment si vous discutez simplement avec le LLM via l’interface chatbot, puis copiez-collez ce code ailleurs, car alors ce n’est pas le cycle de vie de l’environnement de développement logiciel. C’est comme si vous ne preniez que des morceaux, mais ce n’est pas intégré dans tout le flux.

OpenAI et Google veulent capturer ce flux entier du début à la fin. Et donc des choses comme Cursor, Codex, Windsor et Firebase Studio de Google et tout ça, c’est une tentative de construire cette plateforme de bout en bout.

Je pense que c’est une partie. La deuxième partie, c’est d’avoir ce genre de choses qui fonctionnent dans le cloud en parallèle, comme ils disent. Vous pouvez exécuter de nombreuses tâches en parallèle. Donc, encore une fois, cette idée que si vous prenez du recul, cela pourrait ressembler à jouer à Factorio où vous prenez du recul et vous avez tous ces petits agents qui courent faire vos choses, vous n’avez pas à rester assis là et à surveiller chacun. Ils pourraient être 100, 200 fonctionnant en parallèle, faisant toutes les petites tâches qui doivent être faites.

Sam Albert a posté ce Will Depuse disant : « Je pense que l’avenir du travail est comme Starcraft ou Age of Empires. Vous avez 200 micro-agents que vous dirigez pour résoudre des problèmes, recueillir des informations, contacter des personnes, concevoir de nouveaux systèmes, etc. »

D’ailleurs, il semble également évident que la fonctionnalité de recherche approfondie est intégrée à cela, n’est-ce pas ? Car certains d’entre nous, j’en suis sûr, ont essayé, parfois lorsque le projet est plus complexe, vous commencez par faire une recherche approfondie. Vous faites faire une recherche approfondie au modèle sur la façon de construire un logiciel particulier. Et ensuite, vous prenez la recherche qu’il fait et vous la postez dans la chose qui va le coder pour vous. Et cela pourrait être le même modèle, n’est-ce pas ? Le O3 ou autre. Ou vous faites une recherche approfondie avec Google. Vous prenez cela. Bien que je n’aie pas essayé ça. Je ne sais pas comment ça marche, mais j’ai fait une recherche approfondie via OpenAI pour savoir comment coder quelque chose, puis vous demandez à O3 de le coder, n’est-ce pas ?

Mais je pense que c’est un autre élément qu’ils essaient de construire et d’implémenter, cette idée de pouvoir exécuter beaucoup de choses en parallèle qui ne dépendent pas de vous étant devant votre ordinateur sur lequel elles fonctionnent.

Et je suis assez sûr que beaucoup d’entre eux travaillent aussi sur quelque chose comme ça. L’idée de faire de l’apprentissage par renforcement, de le mettre à l’échelle, de faire de l’auto-jeu, l’article « Absolute Zero » a définitivement beaucoup de potentiel.

L’une des découvertes intéressantes là-bas est que lorsque ces LLM sont formés pour résoudre des tâches de codage par exemple, ils deviennent également meilleurs en mathématiques. Donc, même s’ils ne font aucune tâche spécifique aux mathématiques, les exercices de résolution de tâches de codage se généralisent à d’autres domaines comme les mathématiques.

C’était une présentation faite chez Sequoia Capital. C’est Dan Roberts d’OpenAI qui dit qu’avant, nous avions le temps de calcul d’entraînement. Combien de ressources matérielles nous consacrons à l’entraînement de ces modèles. Plus tard, nous avions notre temps de calcul de test. Combien de ressources matérielles nous consacrons à ces modèles pour les aider à réfléchir. Donc, après qu’ils soient formés, quand ils répondent à la question, nous disons « réfléchis plus dur à cela ». Et les deux, comme vous pouvez le voir, aident à améliorer la précision sur divers benchmarks.

Un point pendant son discours qui m’a vraiment frappé, c’est qu’il dit qu’avant, ce cercle blanc, c’était le calcul de pré-entraînement. Combien de ressources matérielles nous consacrons à l’entraînement des modèles, et le rouge était le calcul d’apprentissage par renforcement. Nous lui enseignons à faire tous les tours que nous voulions qu’il fasse. Comme vous pouvez le voir, c’est beaucoup plus petit.

À quoi pourrait ressembler l’avenir ? Eh bien, cela pourrait ressembler à la mise à l’échelle de l’RL. Nous mettons à l’échelle l’apprentissage par renforcement. Et maintenant, comme vous pouvez le voir, le calcul d’apprentissage par renforcement éclipse la quantité de ressources que nous avons dépensées pour le pré-entraînement.

Pourquoi croient-ils cela ? Nous ne le savons pas. Mais je pense qu’une bonne supposition est que certaines de ces idées dans « Absolute Zero Reasoner » et l’auto-jeu et tout cela, l’apprentissage multi-agents, tout cela nous permettra de mettre à l’échelle l’apprentissage par renforcement.

Et encore une fois, ma question ici était de savoir comment ils envisagent de résoudre la cohérence à long terme des agents IA, car ils semblent très bien fonctionner dès le départ, mais ont tendance à se dégrader avec le temps. Et donc cette personne qui a répondu, il est dans cette équipe Codex, c’est Hansen Wang, le chercheur de l’équipe Codex d’OpenAI. Ils disent oui, nous travaillons dans cette direction. Il y a des paris de recherche à long terme.

Le fait que cela ait été publié en septembre de l’année dernière, et que six ou sept mois plus tard, ils y fassent référence comme si c’était une recherche en cours. Je ne sais pas. Pour moi, il semble que c’est exactement la direction qu’ils prennent.

L’avenir de la robotique domestique avec l’IA

Il y avait cette expression : si vous voulez savoir à quoi ressemblera l’avenir, en quelque sorte, où la technologie nous mènerait, ce que vous devez regarder, c’est ce que tous les nerds technologiques font de leur temps libre le week-end. Je pense que ce que fait Sentdex en fait certainement partie. Et bien sûr, je veux dire nerds comme nous tous, vous êtes inclus, et bien sûr, je veux dire cela de la meilleure façon possible, un terme d’affection.

Mais ce que vous voyez ici, c’est que vous utilisez quelque chose comme Codex, qui d’ailleurs semble devoir continuer à s’améliorer, et il y a des tonnes d’argent et de recherche consacrés à s’assurer qu’il devient vraiment, vraiment, vraiment bon. Mais nous utilisons ces logiciels open source pour entraîner ces robots humanoïdes à effectuer diverses tâches dans nos propres maisons.

Ce n’est pas encore du tout grand public. C’est aussi niche que possible, je pense. Mais vous savez, si vous pensez à un an ou deux ans plus tard, nous voyons quelqu’un travailler avec C++ sans connaître le langage en utilisant un assistant IA comme Codex dans ce cas pour interagir avec la base de code.

Beaucoup de choses NVIDIA, tous leurs robots d’entraînement en simulation, beaucoup de cela est disponible. C’est open source. Je pense qu’il est très probable que, disons, dans deux ans, vous aurez des enfants qui pourront prendre leur robot domestique, qui sera beaucoup plus disponible, espérons-le, à ce moment-là, et simplement les entraîner à faire certaines tâches dans une reproduction 3D parfaitement simulée de leur maison.

Vous avez peut-être vu le programme partenaire open source de Meta, où vous pouvez créer ces scènes 3D de divers environnements de maisons, puis quelque chose comme ça est formé pour se déplacer et ramasser divers objets, et c’est une sorte de partenaire. Il collabore donc avec vous pour faire le nettoyage ou ce que vous voulez qu’il fasse.

Je pense qu’il est très réaliste que dans deux ans, peut-être plus, ce sera beaucoup plus accessible. Beaucoup plus de gens feront des choses comme ça. Des robots personnalisés pour faire la vaisselle, la lessive, le nettoyage et le jardinage.

En disant cela, pouvez-vous imaginer avoir cette chose qui promène votre chien autour du pâté de maisons ? Je sens que je dois faire ça juste pour rire. Je sens que voir ça pour la première fois va épater quelqu’un.

Mais dites-moi ce que vous en pensez. Que pensez-vous de Codex ? Que pensez-vous de la direction que tout semble prendre ? Laissez-moi un commentaire. Assurez-vous d’être abonné si vous êtes arrivé jusqu’ici. Merci beaucoup d’avoir regardé. Je m’appelle Wes Roth et je vous retrouve la prochaine fois.

Featured image by Shahida Khan Tora on Unsplash