MANUS DÉVOILÉ ! L’AGI Annulée…
La folie, la pure folie ! Manus AI bouleverse les esprits. En seulement sept jours, ils ont accumulé une liste d’attente de deux millions de personnes. Si vous êtes l’un de ces deux millions sur la liste d’attente, que la chance soit avec vous !
Mes premières interactions avec Manus ont été tout simplement époustouflantes, vraiment très impressionnantes. Mais comme je l’ai mentionné dans ma vidéo précédente et dans certains tweets, je suis certain qu’en continuant à tester et à utiliser cette IA, je découvrirai davantage de défauts et de points à critiquer. Et comme vous le verrez, de nombreuses informations sur Manus émergent, provoquant une certaine agitation.
En lisant les commentaires de la première vidéo publiée, deux remarques m’ont particulièrement interpellé. Elles étaient littéralement à quelques secondes d’intervalle, l’une à côté de l’autre. La première, remplie d’expressions grossières, affirmait que tout cela n’était que du non-sens, de simples appels API sans importance. La suivante disait : « Cette IA fait 85% de mon travail ». Cet agent Manus AI est donc très clivant ! Il existe un énorme fossé entre « ce n’est rien » et « ça remplace 85% des emplois ».
Les révélations sur Manus : que se cache-t-il derrière ?
Dans cette vidéo, abordons d’abord certaines affirmations que Manus a faites ou n’a pas faites, ainsi que les fuites qui ont eu lieu à son sujet et les découvertes surprenantes. Mon quota a également été réapprovisionné, donc nous allons tester Manus sur d’autres tâches. La seule chose qui a ralenti mes tests était la limite de prompts que je pouvais soumettre avant que l’IA ne commence à les refuser – je crois que c’est limité à cinq par jour, dont une version étendue.
Tout d’abord, un utilisateur nommé Jean a demandé à Manus de lui donner les fichiers sur lesquels Manus fonctionne, et l’IA lui a simplement tout donné : leur code d’exécution sandbox. Voici une rediffusion de cet échange :
Comme vous pouvez le voir, vous demandez et Manus obéit, vous donnant tout ce que vous recherchez. Pour beaucoup d’entre nous, ce n’est pas ce que nous pensions. C’est Claude Sonnet 3.5, je crois, avec 29 outils, et cela utilise une technologie open source appelée Browser Use.
Dans ma première vidéo, j’avais repéré un petit détail et j’avais partagé un extrait où l’on pouvait voir ce que Manus utilisait pour interagir avec les sites web. J’adore la communauté qui regarde mes vidéos, merci beaucoup, car beaucoup d’entre vous ont immédiatement identifié exactement ce que c’était. Juste à partir de cette capture d’écran floue et pixelisée, vous saviez exactement ce qu’il utilisait. Les commentaires sur mes vidéos m’impressionnent totalement par leur intelligence et leurs connaissances – pas tous, mais la plupart.
Qu’est-ce que cela signifie ? L’AGI est-elle annulée ?
Que signifie tout cela ? Est-ce juste une façade ? Est-ce simplement une surcouche d’Anthropic ? L’AGI est-elle annulée ? Devons-nous tous rentrer chez nous maintenant ?
Peak G, l’un des fondateurs et la personne la plus visible parmi les trois fondateurs, interagit avec beaucoup de gens. Jusqu’à présent, j’apprécie ce gars, il fait vraiment du bon travail. Il explique certaines façons dont ils utilisent Manus, leur philosophie et comment ils envisagent de construire ces technologies.
Il précise que chaque session a son propre bac à sable (sandbox), complètement isolé des autres sessions. Les utilisateurs peuvent entrer directement dans le sandbox via l’interface de Manus. C’est un environnement Ubuntu, un Linux, c’est open source, c’est une machine virtuelle sur laquelle l’agent s’exécute et lance des commandes. Le code dans le sandbox est utilisé pour recevoir des commandes des agents, donc il est légèrement arbitré.
La conception des outils n’est pas un secret, elle est très similaire à de nombreuses approches académiques. L’une des caractéristiques clés est l’implémentation multi-agents. C’est l’une des choses qu’ils avaient mentionnées auparavant : ce n’est pas juste une chose, mais plusieurs éléments faisant différentes tâches. Il peut y en avoir un qui recherche, un qui crée, un qui communique avec l’utilisateur – essentiellement un petit essaim d’agents, chacun accomplissant sa propre sous-tâche.
C’est une direction dont nous parlons depuis un moment. Le chat un-à-un avec quelque chose comme ChatGPT, avec un chatbot, ne sera probablement pas l’avenir. Ce sera probablement des instances de petits agents spécialisés faisant leur propre chose. Nous le voyons ici.
Quand nous communiquons avec Manus, nous ne communiquons qu’avec l’agent exécutif, qui lui-même ne connaît pas les détails du planificateur de connaissances ou des autres agents. Cela aide vraiment à contrôler la longueur du contexte. Donc, si vous parvenez à faire passer un prompt par jailbreaking, il pourrait ne pas être précis, il pourrait inventer quelque chose, il n’a pas nécessairement accès à cette documentation.
Browser Use est open source, d’ailleurs. Browser Use vient de publier ceci : « L’effet Manus, encore un effet Deep Seek » – ils parlent de l’effet de masse, de combien de personnes téléchargent Browser Use et des logiciels open source à cause de Manus. Comme vous pouvez le voir, ils connaissent un pic assez important.
Peak confirme qu’ils utilisent Browser Use, c’est un code open source. Ils utilisent beaucoup de technologies open source différentes. C’est pourquoi, dans la vidéo, il parlait de leur intention de rendre leur travail open source, de comment cela n’existerait pas sans certains éléments open source, et il a partagé certains de ses modèles post-entraînement sur Hugging Face. C’est une personne qui contribue à la communauté AI open source, qui l’utilise, qui la respecte.
D’où vient ce mème où c’est comme si Manus enlevait son masque et c’était juste une surcouche de Browser Use, ou comme certains disent, une surcouche d’Anthropic ? Browser Use répond : « Détendez-vous, nous sommes open source, c’est ce qui est censé se passer. »
Ils utilisent Claude et différents modèles Qwen fine-tunés, qui est un modèle AI open source venant de Chine. Quand ils ont commencé à le construire, ils n’utilisaient que Claude 3.5 Sonnet. Ils essaient éventuellement de passer à Claude 3.7, ils le testent, nous verrons ce qui se passe.
Mon point de vue personnel
Personnellement, peut-être que je manque quelque chose, mais je ne comprends pas la haine ou pourquoi tout cela est controversé. Premièrement, s’ils créent un bon produit, ce qui semble certainement être le cas, soit :
a) C’est propriétaire avec beaucoup de sauce spéciale, des émotions, et toutes ces choses qui en feront une énorme grande entreprise, une bonne startup, et attireront beaucoup d’investisseurs, etc., et c’est bien.
b) Une grande partie est open source, s’appuyant sur d’autres technologies que nous pouvons tous utiliser, auquel cas elle sera probablement répliquée et nous aurons tous accès à cette chose plus rapidement, mieux, moins cher.
Cela semble plutôt génial dans les deux cas. Je ne suis donc pas sûr de comprendre pourquoi c’est un problème.
Dans ma vidéo originale, il y a environ une minute où je suis simplement confus sur la façon dont Manus a fait cette chose particulière. Je lui ai demandé de créer un petit cours de développement AI Linux, parlant spécifiquement de comment configurer Cloud Code, puis utiliser Cloud Code pour installer divers projets GitHub afin de pouvoir interagir avec eux.
Voici le site web qu’il a construit, c’est très bon, j’étais très impressionné. Mais c’est aussi, je ne veux pas dire simple, mais beaucoup de ces informations sont disponibles sur internet, la documentation, les informations, tout est sur internet, donc je m’attendais à ce qu’il le fasse.
Là où j’ai commencé à perdre un peu la tête, c’est ici : dans le cadre de ce projet, il a fait ses recherches, puis a construit ce site web, et a tout fait en une seule fois. Voici comment lancer CLA, comment communiquer avec Claude, comment obtenir que Claude fasse votre git clone, comment cloner des projets open source depuis le web. Ensuite, il vous dit ce que Cloud Coder/Cloud Code va faire pour accomplir la tâche, et dit : « Cloud Coder suggérera ces ajouts de code » et détaille ce que Cloud Coder va faire.
J’enregistrais cela avant que ces nouvelles informations ne sortent. Regardez mon état de confusion absolue sur la façon dont il faisait cela :
« Comment savent-ils cela ? C’est bien mieux que ce que j’aurais attendu. Je suis un peu soufflé. Cette chose semble plus intelligente qu’elle ne devrait l’être. Oui, il vous guide à travers l’utilisation de CLA Coder. Comment a-t-il fait ça ? Cela semble être une sortie de Claude. Je me demande s’il a réellement installé Coder sur sa propre machine pour l’exécuter. C’est bizarre. C’est bizarre. Je suis un peu soufflé. Cela me déroute un peu. »
Revenant au moment présent, la raison pour laquelle j’étais si impressionné à l’époque, c’est parce que je ne savais pas qu’il fonctionnait sur Claude via les appels API d’Anthropic. Je pensais qu’il s’agissait peut-être d’un Deep Seek ou quelque chose comme ça. En regardant cela, je n’avais aucune idée de comment il était capable de reproduire la façon dont Claude Coder passerait par ce processus, comment il ferait cela, parce qu’encore une fois, beaucoup de ces choses sont si nouvelles, c’est une preview de recherche, il n’y a pas beaucoup de vidéos, de documentation ou de personnes qui en parlent. C’est très niche, très nouveau. Comment cette chose pourrait-elle non seulement me guider à travers les étapes, mais aussi jouer le rôle de Claude et ce que Claude ferait dans cette situation, spécifiquement Claude Coder ?
Vous comprenez ce qui se passait ? C’est comme être à une fête et perdre la tête devant un imitateur d’Arnold Schwarzenegger qui est si bon que vous vous dites : « Mon Dieu, il est tellement bon, comment sait-il exactement comment Arnold sonne ? » et vous perdez la tête devant à quel point cette personne est incroyable pour imiter Schwarzenegger. Puis quelqu’un vous dit : « Non, non, non, c’est le vrai gars, c’est Arnold, il vit juste sa vie en étant lui-même, il ne joue pas un rôle, c’est juste lui qui est lui-même. » Et vous vous dites : « Oh, je comprends maintenant. »
Ce n’est pas quelque chose qui simule ou imite Cloud Code, c’est la chose qui exécute Cloud Code. Mystère résolu !
Réévaluation des projets avec Manus
Avec tout cela à l’esprit, passons en revue certains des projets que j’ai réalisés avec Manus et réévaluons-les à la lumière de ces nouvelles informations. Encore une fois, le point n’est pas de savoir comment cette chose est construite, mais si elle est bonne, à quel point elle accomplit bien la tâche qu’elle est censée faire.
Première étape : à quel point a-t-elle bien performé dans sa tâche de développement d’un cours AI Linux et de faire tout ce que je lui ai demandé ? J’ai expliqué en détail que je voulais montrer comment installer Ubuntu, comment installer Cloud Coder, le minimum nécessaire pour faire cela, puis comment utiliser Cloud Coder pour installer des projets GitHub, etc. Initialement, je pense que je lui ai donné un A+ pour la façon dont elle a accompli cette tâche. À la lumière de tous ces nouveaux détails, je dirais que la nouvelle note que je lui donnerais est… un A+. C’est la même note. Elle a fait un excellent travail, point final. À l’époque, je ne savais pas comment elle avait compris la chose Cloud Coder, et maintenant je sais comment elle l’a fait. Mais le projet est toujours réalisé, et il est toujours très bien fait. A+.
Une autre tâche que je lui ai confiée était de rechercher tout ce qu’elle pouvait sur Manus AI : quels LLM ils utilisent, qui est derrière, quel modèle de vision ils utilisent, etc. Tout et n’importe quoi sur la façon dont cette chose est faite. À l’époque, je pensais que cette réponse était très bonne. Elle a donné beaucoup d’informations sur les personnes derrière ce projet, elle a donné certains benchmarks de performance qui étaient précis, elle a parlé un peu des modèles de vision sans nommer spécifiquement ce qu’elle utilisait, de l’architecture multi-agents, des opérations asynchrones basées sur le cloud, etc. Elle a pratiquement tout compris, sauf les modèles utilisés, mais elle a en quelque sorte dit « probablement la technologie LLM » – elle n’a jamais prétendu savoir avec certitude ce qui était utilisé, elle a dit ce qu’elle supposait être utilisé, ce que j’avais d’ailleurs supposé aussi.
Si vous allez exécuter quelque chose comme ça, qu’utilisez-vous ? Vous utilisez quelque chose d’open source pour contrôler les coûts, pour pouvoir faire ce que vous voulez avec, le fine-tuner, pour ne pas payer les coûts API. Quel est le LLM open source actuel qui est nouveau, chaud et génial ? C’est le truc Deep Seek. Ça a du sens. Mais elle a même précisé : « J’assume que c’est le cas, c’est probablement ça » et elle ne connaissait pas le modèle de vision, mais c’était il y a 4 jours, avant que nous sachions tout ce que nous savons maintenant.
Voici donc la question : je vais exécuter exactement le même prompt à nouveau, car à l’époque, je lui ai donné un A+ et je pense que cela tient toujours, car à l’époque, c’était l’information disponible. Elle a tout compris. Maintenant, si j’exécute exactement le même prompt et qu’elle me donne les mêmes informations, ce serait un échec, n’est-ce pas ? Parce que nous en savons beaucoup plus maintenant. Je vais donc commencer une nouvelle session et je vais simplement coller exactement le même prompt que j’ai fait il y a 4 jours, mot pour mot, juste copier-coller et cliquer sur « Go » à nouveau. Nous recherchons beaucoup des mêmes informations, et ce que j’espère voir pour qu’elle obtienne son A+, c’est qu’elle inclue les détails de cette nouvelle chose que nous avons apprise, quel modèle elle utilise, quel modèle de vision elle utilise, etc.
Pour les deux premiers prompts que nous avons examinés, A+ sur les deux.
Tests supplémentaires et défis
Ensuite, j’ai demandé d’écrire du code qui utilisait trois clés API, trois choses distinctes qui utilisent une API. Fondamentalement, j’écris un prompt qui est envoyé à OpenAI, OpenAI écrit un script en texte, puis nous prenons ce texte, nous l’envoyons à 11Labs, 11Labs utilise une voix AI pour vocaliser ce texte, ce script, puis nous prenons ce fichier audio, nous l’envoyons à Heygen, et Heygen crée un avatar vidéo qui dit ce script.
Manus n’a pas pu comprendre la partie Heygen. Elle a dit que la clé API ne fonctionnait pas ou quelque chose comme ça. Elle a réussi tout le reste, tout a parfaitement fonctionné. Elle a créé une façon de l’exécuter simplement via votre ligne de commande ou une chose HTML que vous pouvez exécuter dans votre navigateur, comme une interface utilisateur visuelle. Et elle semblait également mettre en place des choses comme, si elle ne parvenait pas à sélectionner la voix que vous vouliez, elle passerait par défaut à la voix par défaut. Donc même si elle rencontrait des problèmes, c’était assez robuste. Je lui ai donné un A+.
Bien sûr, si elle a échoué à faire la chose Heygen, alors qu’elle aurait dû être capable de le faire, elle serait notée à la baisse pour cela. Très rapidement, je vais jeter cela dans Claude juste pour voir si c’est quelque chose que Claude ne comprend pas tout à fait ou si c’est quelque chose lié à Manus.
Pour le jeu d’avion de combat de la Seconde Guerre mondiale, nous avons rencontré un problème de fenêtre de contexte, donc je ne suis pas prêt à donner une note. Cela semblait très bien se passer, voici le fichier .do, remarquez à quel point il est complexe, le développement du jeu, combien de choses il prenait en compte. J’étais donc assez excité de voir jusqu’où il irait avec ça. Ça a planté, mais je ne veux pas donner de note parce que je ne pense pas que cela fasse partie du test – le contexte était trop long, je ne vais pas lui donner de note là-dessus.
Le jeu Universal Paperclips
Ensuite, je lui ai demandé de créer un jeu comme Universal Paperclips. Je suis allé en ligne, j’ai trouvé un Wiki qui décrivait brièvement le gameplay, donc je l’ai juste jeté comme un fichier texte, lui ai donné quelques captures d’écran, voici à quoi ça ressemble vers la fin, voici à quoi ça ressemble au début. Elle m’a donné la première itération qui semblait fonctionner correctement, puis je lui ai donné quelques idées, lui ai dit quoi améliorer, j’ai cliqué sur Envoyer et je suis allé me coucher. Le matin, je me suis réveillé et j’ai reçu ceci.
Pendant que je faisais cela, Manus a vu un problème avec un captcha. Au cas où vous vous demanderiez ce que vous allez faire de tout le temps libre que vous aurez lorsque les agents AI autonomes automatiseront tout le travail que vous devez faire, c’est ça. C’est ce que nous allons tous faire, nous allons faire des captchas sur des bureaux virtuels distants sur des serveurs Ubuntu.
J’ai échoué. Est-ce la preuve que je suis un robot ? J’ai été bloqué. C’est de fausses nouvelles, Reuters. Vous ne pouvez pas me bloquer. Voyons si ça marche… Vous ne pouvez pas bloquer ça !
Mais voici le jeu de trombones. Tout semble très bien fonctionner, il a de bons éléments, comment il répond aux choses. J’y ai joué aussi loin que je pouvais avant, et ça a l’air bien, tout fonctionne comme prévu.
Si vous n’êtes pas au courant de ce jeu, c’est essentiellement un jeu où vous êtes une IA chargée de fabriquer et de vendre des trombones. Au fil du temps, vous développez de plus en plus de capacités pour le faire. Vous commencez à soudoyer des responsables gouvernementaux et à faire toutes sortes de choses déloyales dans votre quête pour vendre des trombones. Finalement, vous libérez les drones hypno, asservissant essentiellement la population terrestre, les transformant en zombies qui vous achètent juste des trombones. Il semble qu’un certain pourcentage de la population s’échappe dans l’espace, alors vous les poursuivez, construisant un vaste empire spatial et convertissant toute la matière de l’univers en trombones. Vous gagnez le jeu lorsque le dernier atome de matière dans l’univers connu est converti en trombones.
Il semble donc que cet agent AI soit capable de reproduire ce jeu particulier très fidèlement, pour autant que je puisse en juger jusqu’à présent. Il a cinq étapes différentes avec différents éléments d’interface utilisateur, etc. Je lui donnerais un A+ jusqu’à présent.
Analyse de cryptomonnaies et autres tests
Ensuite, lors d’un livestream, j’ai demandé aux gens quels types de choses ils voulaient voir. Un domaine très intéressant où vous pouvez en quelque sorte libérer ces agents est dans l’espace crypto. Personnellement, je n’achète pas ou ne vends pas de crypto, je n’en fais pas la promotion, je reste à l’écart, mais c’est un espace très intéressant parce que beaucoup des nouvelles et des choses qui se passent sont publiées en ligne, beaucoup des pumps et dumps sont exécutés en ligne.
Ce que j’essayais de faire, c’était de voir si cette chose pouvait rechercher quel genre de choses ont le plus grand impact sur le prix de ces pièces, puis je lui ai demandé de créer un site web qui démontrait ses découvertes pour trois pièces que j’ai demandées au public en direct de recommander. Nous avons utilisé celles-ci, nous avons créé cela, et voici les résultats.
Le premier site web est construit, c’était bon, il ressemblait à un autre site web qu’il a construit, donc nous en parlerons dans une seconde, mais comme vous pouvez le voir, des tonnes de graphiques et de diagrammes, et c’est visuellement très bon, et c’est juste plusieurs pages de graphiques et de données et de résultats clés, etc. La seule chose, c’est qu’il a manqué parce que l’une des choses que nous demandions, c’est comment différents influenceurs et personnes dans l’espace affectent le prix des pièces. Donc je lui ai demandé de le mettre à jour, et voici ce qu’il a fait.
Voici ces nouvelles fonctionnalités. Il a en quelque sorte mis à jour l’analyse d’impact des influenceurs et il a regardé et a trouvé que les PDG des grandes bourses ont le plus grand impact sur le prix des pièces. Les fondateurs de projets crypto pas tellement, mais ont quand même un impact. Les célébrités ont également un impact très fort. Parmi les plateformes, YouTube est la plus influente, suivie par Twitter, suivie par TikTok.
Maintenant, pour déterminer combien de tout cela est réel, nous devrions vraiment examiner les données. J’ai regardé ce qu’il faisait pour trouver toutes ces choses. Si vous regardez les fichiers et le code qu’il a collecté pour écrire ces choses, cela semble légitime, il a fait le travail, ce n’est pas comme s’il avait juste inventé un tas de chiffres. Cependant, pour vraiment s’assurer que ces données sont précises, nous devrions faire beaucoup d’exploration médico-légale ici pour nous assurer que c’est correct, etc. Donc je vais lui donner un A pour ce projet, avec l’astérisque que je n’en sais pas assez pour vérifier son travail.
Pour mes futurs prompts, je vais essayer de trouver des prompts où je peux en un coup d’œil dire si les résultats sont réels ou non. Donc prenez cela avec un grain de sel, mais encore une fois, c’était juste moi qui n’utilisais probablement pas le meilleur prompt, mais tout le reste semble phénoménal.
Un autre problème que nous avons eu était de rechercher des jeux vidéo qui ont été créés récemment en utilisant l’IA. J’ai donné quelques exemples et j’ai dit créer 5-10 jeux comme ça, ils doivent avoir été construits au cours des 3 derniers mois environ, puis créer un site web avec l’esthétique d’un jeu vidéo des années 90. Il l’a fait et je pense qu’il l’a fait très bien, je pense qu’il a fait un travail phénoménal. Il a collecté beaucoup d’informations, il nous a donné des liens vers les jeux réels pour que vous puissiez aller les vérifier.
Maintenant, quelques-uns des jeux dont il a parlé ne sont pas hébergés en ligne, donc nous n’avions pas de liens, donc c’est l’une des choses que je pourrais peut-être mieux faire la prochaine fois, spécifier pour s’assurer que c’est quelque chose que l’utilisateur peut jouer, bien que ce ne soit pas toujours nécessaire. Mais encore une fois, je lui donnerais un A+ pour cela.
Un problème que j’ai remarqué est que lorsque vous revenez le lendemain et que vous lui demandez de continuer à générer et à ajouter à ce prompt, cela n’a pas fonctionné. Il a dit que le contexte est trop long. Maintenant, si cette machine virtuelle, cette instance, est réinitialisée chaque jour ou si elle ne stocke pas le contexte d’une manière ou d’une autre, je peux voir comment cela pourrait être un problème. Donc cela pourrait être quelque chose qui est corrigé avec le temps, mais dans cet exemple que j’ai trouvé, il a créé un site web, mais si je reviens un jour ou deux plus tard et que j’essaie d’ajouter au site web, ça plante. Donc, encore une fois, cela pourrait être une limitation, mais nous découvrirons à quel point cela fonctionne bien à mesure qu’ils continuent à développer, et je continuerai à tester ces choses. Donc, espérons qu’il y a un moyen de simplement reprendre là où vous vous étiez arrêté.
Comparaison avec Claude
D’ailleurs, si vous vous souvenez de ce prompt que nous lui avons demandé de faire avec 11labs et l’API vocale et la génération vidéo Heygen, j’ai posté cette même chose ici dans Claude, j’ai utilisé Claude 3.5 pour imiter ce qu’ils utilisent en coulisses, et Claude a simplement refusé de le faire parce qu’il pensait que c’était trompeur ou quelque chose comme ça.
Cela rend Manus encore un peu plus impressionnant pour moi dans le sens où il comprend toutes les choses qu’il doit faire, et puis quand il transmet les informations à Claude ou quelle que soit l’API qu’il utilise, il ne lui donne pas tout le projet, donc Claude est plus susceptible de le faire parce qu’il est en quelque sorte gardé dans l’ignorance sur l’image plus grande. Je veux dire, nous ne faisons rien de néfaste ici, juste des tests, mais Claude décide que « non, je ne vais pas le faire, c’est en dessous de moi », ce qui est évidemment un peu frustrant parce que rien de néfaste ne se passe ici, mais bon.
Mais à ce moment-là, Manus a terminé de faire une recherche complète sur lui-même ! Rappelez-vous, nous avons fait cela il y a quatre jours. Elle est donc arrivée avec des informations qui semblaient très précises pour cette époque, mais comme nous avons maintenant beaucoup plus d’informations, la question est : sera-t-elle capable de se mettre à jour, de mettre à jour ce qu’elle a trouvé, de trouver les nouvelles informations et de créer un nouveau rapport qui est, quatre jours plus tard, précis par rapport aux informations que nous avons quatre jours plus tard, pas si longtemps dans le futur.
La plupart de cela reste identique, mais ici nous avons les modèles LLM et la fondation, et elle le cloue absolument, phénoménal. Manus utilise une architecture multi-agents. Elle mentionne Claude d’Anthropic et des versions affinées des modèles Qwen utilisés principalement pour les fonctions de planification. C’est phénoménal, elle a tout compris. Encore une fois, c’est une nouvelle information, et elle l’a trouvée.
En termes de capacités de vision et multimodales, elle ne mentionne pas spécifiquement la chose qu’elle utilise, donc elle perd certainement quelques points pour cela, mais elle détaille davantage le système multi-agents, parlant d’un agent exécuteur central, etc., un peu comme ce dont Peak a parlé, ce qu’il a partagé avec nous sur son fonctionnement. Nous croyons – je veux dire, c’est tout correct – qu’elle s’intègre avec 29 outils et logiciels open source, encore une fois phénoménal. Je lui donne un A. J’aurais aimé qu’elle comprenne quel système de vision elle utilisait, parce que nous savons maintenant que c’est Browser Use, un système de vision open source, mais c’est toujours très bon.
Laissez-moi essayer une chose, je vais lui dire que le système de vision est disponible en ligne. Je vais dire : « Le système de vision que Manus utilise est disponible en ligne, recherche et vois si tu peux le trouver ». Et comme elle pourrait essayer de ne pas publier de rumeurs ou de choses non confirmées, je vais aussi ajouter quelque chose pour corriger cela. Je vais dire : « C’est OK si ce sont juste des rumeurs et pas officiellement confirmé ». Donc, encore une fois, j’espère qu’elle reviendra et dira que c’est Browser Use, et je pense que cela lui vaudra un A+ de ma part si elle est capable de faire tout cela.
Recherche sur les entreprises robotiques et jeu de serpent
Pendant ce temps, donnons-lui quelques prompts supplémentaires à tester. Nous allons dire : « Recherche les entreprises robotiques les plus prometteuses et les plus récentes qui ont une technologie open source, inclus les États-Unis, la Chine et d’autres pays dans la recherche. Crée un site web avec des pages pour chaque entreprise, thème sombre avec des éléments industriels. Inclus pour chaque entreprise des vidéos des robots, quelle technologie est open source, et toute information sur quand ces robots deviendront disponibles pour le public. »
Je pense que ce sera un excellent test de ses capacités, voyons comment elle s’en sort.
Ensuite, nous allons passer au mode haute performance. Nous allons dire : « Crée un jeu de serpent où deux serpents s’affrontent de manière autonome. Ajoute des éléments de conception de jeu intéressants qui sont nouveaux et créatifs. Inclus des conditions de victoire/défaite et un système de score. Assure-toi qu’il n’y a pas de match nul, un serpent doit gagner, quelqu’un doit obtenir le point. Ensuite, crée deux pipelines d’apprentissage par renforcement distinctes utilisant PyTorch ou similaire. »
Nous venons d’augmenter considérablement la difficulté. Gardez à l’esprit, si elle fonctionne sur Claude 3.5, ce n’est pas aussi avancé que certains des autres modèles.
Pour les personnes qui ne sont pas familières avec ceci : avec l’apprentissage par renforcement, nous créons un réseau neuronal IA qui apprend à jouer à un jeu par essais et erreurs. Nous donnons un renforcement positif quand il obtient un score élevé, et quand il meurt, nous lui donnons un renforcement négatif, puis nous le faisons passer par de nombreuses itérations, des centaines ou des milliers, et au fil du temps, nous nous attendons à voir qu’il s’améliore. Lors de la première itération, il appuie juste aléatoirement sur des boutons et ne sait pas ce qu’il fait, mais au fil du temps, il comprend comment jouer au jeu pour atteindre ses objectifs. Au moment où il fait 500 ou 1000 itérations, il devrait être assez bon.
Nous allons créer deux pipelines distinctes pour l’entraînement des deux serpents différents. Assurons-nous que chaque serpent a sa propre approche d’entraînement distincte. Après l’entraînement, nous devrions pouvoir opposer ces deux serpents l’un à l’autre pour voir quelle approche d’entraînement a mieux fonctionné.
Les modèles Anthropic et OpenAI haut de gamme, et Grok 3 avec le mode réflexion activé, peuvent faire cela, peut-être avec différents niveaux de performance, mais c’est en quelque sorte dans leurs capacités. Mais je ne pense pas avoir jamais donné tout le projet d’un seul coup, habituellement je commence par faire ceci, puis cela, puis cela, pour pouvoir dépanner en cours de route, et généralement il y a des choses que je dois faire pour le réparer, il ne peut pas le faire tout seul. Et je vais spécifier que c’est en Python pour que ce soit cohérent avec les autres tests que j’ai faits sur d’autres modèles.
Si elle est capable de faire cela, ce serait extrêmement impressionnant, car encore une fois, avec les autres modèles, vous devez vous asseoir là et le faire un par un, vous ne pouvez pas juste lui donner tout le projet puis partir faire autre chose et revenir et c’est fait. Je vais deviner qu’elle a 70% de chances de compléter cela, mais ce serait très impressionnant si elle le fait.
Résultats et défis rencontrés
Sa recherche sur elle-même, sur quel modèle de vision elle utilise, même avec un indice, elle n’a pas été capable de le faire. Cela pourrait être dû au fait qu’une grande partie de cette conversation se déroule sur Twitter/X et peut-être qu’elle ne peut pas parcourir tout cela à la fois. Quoi qu’il en soit, elle perd quelques points pour cela, mais à part ça, elle a été incroyablement précise et incroyablement à jour, et juste très bonne, très efficace.
J’aime aussi le fait qu’ici elle ne suppose pas simplement : elle dit « J’ai trouvé des preuves solides suggérant que », donc elle ne dit pas « c’est le modèle » et c’est faux, elle dit « Je pense vraiment que ça doit être ça ». J’aime qu’elle puisse différencier entre ce qu’elle sait et ce qui est probable, etc. C’est une bonne chose.
Une autre chose que je vais lui demander de faire est de cloner le Google Store. Cloner ce site web store.google.com, juste le sous-domaine store. Je ne sais pas combien de pages cela va avoir, donc nous allons dire : « Ne t’inquiète pas de tous les liens dans le pied de page et l’en-tête, juste les liens sur la page principale devraient mener quelque part ».
Ah, déjoué à nouveau, limite d’utilisation quotidienne maximale atteinte !
OK, je suis de retour le lendemain et je vérifie son travail, ce qui pourrait être un problème puisqu’il semble qu’ils ferment la machine virtuelle, ce sandbox environnement combiné avec la façon dont Manus gère certaines choses, cela crée des problèmes. Je suis sûr qu’ils vont corriger ça à un moment donné, mais jetons un coup d’œil.
Voici le jeu de serpent autonome où il utilise PyTorch pour créer différentes pipelines d’entraînement par renforcement. En regardant rapidement ce qu’il a fait, tout avait l’air génial au premier coup d’œil. La liste des tâches et la façon dont il exécute tout est absolument phénoménale.
Premier problème qu’il rencontre : il a des problèmes de mémoire avec l’installation du package PyTorch complet. Cela a du sens, c’est une machine virtuelle qu’ils exécutent là-dedans, ce n’est probablement pas la plus puissante ou la plus grande chose que vous puissiez imaginer, ils ont probablement des contraintes.
C’est l’une de ces choses où j’aimerais pouvoir télécharger ma carte de crédit et dire : « Je paierai pour l’extra, quoi que vous ayez besoin, quota supplémentaire de ces prompts et machine virtuelle supplémentaire pour exécuter ce dont vous avez besoin ». Je ne serais pas contre, et je suis sûr que je ne suis pas le seul, il y aurait probablement d’autres personnes intéressées à dire : « Vous savez quoi, je suis d’accord pour payer un peu plus, laissez-moi voir ce que cette chose peut faire ».
Mais il comprend qu’il pourrait probablement faire une version plus légère des composants RL et il continue. Il rencontre des bugs et tente de les corriger, et finalement, il y a de grands progrès et fondamentalement, toute cette chose est assez impressionnante en ce qu’il rencontre un tas de problèmes qu’il résout ensuite. Très bien.
Il a réellement terminé ! Il a terminé le jeu de serpent compétitif avec deux agents entraînés de manière autonome en utilisant différentes approches d’apprentissage par renforcement. C’est génial ! Et puis il explique les deux approches qu’il a utilisées, disant que l’une d’elles obtient des scores plus élevés en moyenne. C’est absolument phénoménal.
Il obtient beaucoup de points parce que je suis sûr – je ne suis pas sûr, je suis raisonnablement sûr qu’il n’invente pas simplement des chiffres, je suis sûr qu’il a fait le travail, il a créé la chose. C’est impressionnant.
Voici le problème, et encore une fois, c’est un problème qui pourrait être facilement résolu, et à l’avenir, sachant ce que je sais maintenant, je sais comment le contourner, mais il perd quelques points parce que ce problème existe. Il dit : « Voilà tout le code, les modèles entraînés, toute la visualisation, tout, voici le fichier ». Le seul problème est, encore une fois, nous avons rencontré cela auparavant, c’est sur son ordinateur ! C’est donc une machine virtuelle qui prend vie, travaille dessus, crée toutes les choses, dit « voici le fichier », et cette machine virtuelle s’en va et disparaît si vous n’y accédez pas assez rapidement.
Mais j’ai vu cela tout de suite et j’ai dit : « OK, mais donne-moi juste un lien pour télécharger le fichier ». Il répond : « Eh bien, il est stocké sur le serveur sandbox, puisque vous n’avez pas d’accès direct » – il le sait, alors pourquoi me donne-t-il ce lien si vous savez que je n’y ai pas accès ? Mais d’accord.
Il dit donc : « OK, nous l’avons ici, voici comment je peux vous le faire parvenir ». Premièrement, je peux le télécharger sur un service de partage de fichiers. Deuxièmement, je peux extraire des parties spécifiques du projet qui vous intéressent le plus et les partager directement. C’est donc un problème de taille pour fournir, je suppose, parce qu’il peut probablement faire de petits fichiers et des trucs comme ça, je ne peux tout simplement pas faire tout le projet. Ou vous pouvez créer un dépôt GitHub et y mettre le code si vous fournissez des identifiants GitHub.
C’est là que je rencontre le problème, parce que je suis revenu plus tard, une nuit s’est écoulée, je suis revenu le lendemain, donc à ce stade, c’est trop tard, je ne pense pas avoir accès à ces choses, mais vérifions. Vous avez dit que c’était dans ce package là-bas, voyons s’il est toujours disponible.
La façon dont Peak G l’a présenté, il semble que toutes ces choses soient effacées après un certain temps ou quelque chose comme ça, donc je ne suis pas sûr à 100%, mais je serais surpris si ce fichier était encore là.
Encore une fois, ce n’est probablement pas un gros problème, il y aura probablement des solutions de contournement. En fait, il nous a donné quelques solutions de contournement et nous allons les tester dans une seconde, mais vous voyez comment nous rencontrons un problème où nous avons essentiellement épuisé les crédits, en fait un de ces crédits « haute performance », et Manus, l’entreprise, a perdu je ne sais combien d’argent pour exécuter cela et faire les appels API et tout ça. Donc de l’argent a été dépensé, des ressources ont été dépensées pour exécuter tout cela, et tout ce travail est essentiellement gaspillé à cause de ce petit problème ou quoi que vous vouliez appeler ça. Mais encore une fois, ils vont corriger ça, ça ne semble pas être un gros problème.
Oh, mais regardez ça, bonnes nouvelles tout le monde, le package est toujours disponible ! J’avais tort de supposer qu’il disparaît.
Une chose que je veux essayer, c’est qu’il fait 119 mégaoctets, donc tout d’abord, ne puis-je pas simplement le télécharger sur un lien Google Drive ? Sinon, je veux aussi tester pour voir s’il peut utiliser un jeton de GitHub pour le pousser vers GitHub, ce qu’il a dit qu’il pouvait faire.
Je vais dire : « Télécharge-le ici » et je lui ai juste donné le dossier Google Drive qui est ouvert à tout le monde, je l’ai configuré pour que tout le monde puisse y écrire, voyons si ça marche.
Dans une session différente, il avait dit que l’ordinateur de Manus a rencontré un problème critique, vous pouvez le réinitialiser ou commencer une nouvelle session. Voyons si nous pouvons réinitialiser l’ordinateur. Le nouvel ordinateur ne contiendra pas les fichiers de travail précédents. Intéressant, il semble que chaque prompt que vous avez, chaque instance est sa propre instance séparée de la chose. Laissez-moi juste cliquer sur nouvelle instance.
Pendant ce temps, vérifions les dernières entreprises robotiques open source dans le monde. Nous avons un avertissement ici qu’il y a un contexte extrêmement long et il semble qu’il fonctionne depuis un moment, y travaillant. Il a fait quelques recherches, certains noms familiers ici, y compris Unitree.
Comme vous pouvez le voir ici, il a fait beaucoup, il est arrivé au développement du site web et voyons ce qui s’est passé. Comme vous pouvez le voir ici, il a rencontré un problème et il a planté parce que le contexte est trop long, mais vous pouvez voir ici ce sur quoi il a travaillé. Ça a l’air plutôt bien.
Maintenant, la chose intéressante ici est qu’avec le jeu de serpent autonome, il liste en fait tous les fichiers dans la session, il les jette juste tous dans cette chose et vous pouvez les télécharger. Donc ce que j’ai fait, c’est que j’ai juste téléchargé chacun d’eux, les ai mis dans un dossier et l’ai ouvert dans Cursor pour voir si Cursor, qui tourne sur Claude 3.7 ou Claude 3.7 limité, ou il descend à Claude 3.5, mais voyons si nous pouvons donner un sens à cela.
Donc, tout d’abord, il dit : « Oh, attendez, ça ressemble à du code Ubuntu, vous êtes sur Windows, laissez-moi changer ces choses », commençons par là et voyons s’il est capable d’exécuter le visualiseur. Il voit qu’il manque certains packages requis et il installe tout. Si cela est capable de fonctionner, je suis tenté de donner à Manus quelques points pour avoir terminé le projet et peut-être lui donner quelques points pour – je veux dire, c’est une partie des douleurs de croissance et de la résolution de certaines erreurs.
Il n’a pas complété la tâche parce qu’il ne m’a pas livré les résultats, mais si j’étais capable de faire tout ce projet en un seul prompt, ou au moins de compléter tout ce dont il avait besoin, ce qui semblait être le cas d’après le fait que je peux vous dire laquelle des approches d’entraînement a mieux fonctionné, je pense qu’il mérite beaucoup de points pour cela.
On dirait que Manus a encore planté. Cela pourrait me prendre un peu de temps pour comprendre ce qu’il a fait, reconstruire toutes les choses qu’il a faites, mais voici la documentation qu’il a faite. Il a créé un DQN et un PPO, différentes approches d’entraînement, il les a exécutées à travers le jeu et il a réussi techniquement, et il semble que l’agent DQN ait constamment obtenu des scores plus élevés, 36,5% plus élevés que l’approche PPO, et ils ont ce rapport de synthèse auquel je n’ai pas accès à nouveau, et il nous donne quelques idées pour des améliorations futures.
Verdict final
Voici mon avis, et peut-être que certains d’entre vous ne seront pas d’accord avec moi : quelle que soit la façon dont ils ont assemblé toute cette chose, quelle que soit la façon dont ils ont assemblé Manus, ils lui ont donné des capacités assez puissantes. Il y a encore beaucoup de problèmes, il y a encore beaucoup de bugs à corriger, ce n’est pas parfait, mais en ce moment, de là où je suis assis, je suis très excité par ce projet.
J’ai vraiment hâte de voir comment il se développe, je ne peux pas attendre jusqu’à ce qu’ils comprennent comment obtenir assez de service pour accommoder tout le monde, jusqu’à ce que nous puissions payer l’argent pour améliorer et obtenir accès à plus de tout ce dont nous avons besoin pour exécuter ce que nous voulons dessus. Je suis intéressé à voir cette chose dans sa forme finale.
Beaucoup de gens pointent des problèmes, ils pointent des erreurs et sont généralement un peu négatifs à ce sujet. À bien des égards, ils ont raison. Il y a des problèmes, il y a des problèmes, nous en avons découvert un certain nombre qui rendent les complétions problématiques. Cette chose où elle plante simplement, cela arrive un certain nombre de fois. C’est difficile de dire quand elle le fait parce que parfois elle semble fonctionner mais elle reste juste là et puis disparaît, mais elle a planté il y a un moment et c’est juste que le message apparaît plus tard.
Nous avons des problèmes avec l’ordinateur rencontrant un problème critique, exécutant un contexte trop long à partir du premier prompt – il n’y avait pas d’allers-retours, c’était un prompt, il fonctionne pendant un moment puis plante, et il n’y a aucun moyen de récupérer le travail à moins que vous ne passiez par – je veux dire, vous avez les fichiers ici techniquement, vous pouvez juste les télécharger un par un, mais encore une fois, c’est presque créer plus de travail que ça n’en vaut la peine.
Elle semble très bonne pour la recherche, mais elle manque encore certains petits détails ici et là, ou du moins, cette chose spécifique a été discutée sur Twitter, mais peut-être qu’elle n’était pas disponible dans ces documentations officielles ou quoi que ce soit, donc peut-être que c’est juste une question de où elle est prête à chercher.
Je pense que mon verdict final sur cette chose est ceci : si vous voulez être impressionné, il y a beaucoup de choses impressionnantes dans cette chose. En un mot, c’est impressionnant. Si vous cherchez des choses à critiquer, des problèmes et des trucs comme ça, elle en a aussi. C’est un tout nouveau produit, il est encore en développement, il y a beaucoup de problèmes qu’ils vont probablement résoudre très bientôt, espérons-le.
Dans l’ensemble, je pense que cela démontre vraiment ce que quelque chose comme ça peut faire, ce que cette sorte de plateforme d’agent autonome IA peut faire, et c’est vraiment excitant à voir. Encore une fois, une fois qu’ils auront assez de temps pour le développer et ajouter une sorte de plan Pro où vous pourrez obtenir plus de tout ce qu’il propose, cette chose va être très intéressante à utiliser et j’ai hâte.
Et parce qu’ils construisent sur certains des projets Open Source, ils utilisent Anthropic, nous verrons probablement d’autres personnes rattraper leur retard et créer leurs propres versions de ceci. Dans l’ensemble, c’est très excitant parce que soit cette chose va mener la charge, soit elle va motiver d’autres personnes à créer quelque chose de similaire. Dans tous les cas, je suis très excité de voir où cela va ensuite.
Je viens de télécharger et d’installer la version open source de ceci, Open Manus. Certaines personnes disent que c’est la même chose, que c’est tout aussi bon. J’ai joué avec pendant 20 minutes, je ne le vois pas encore tout à fait, peut-être que j’ai besoin d’y consacrer plus de temps. C’est bon, c’est intéressant, il y a définitivement de la puissance là-dedans, mais ce n’est pas juste comme prêt à l’emploi aussi génial que Manus. Encore une fois, c’est juste après environ 20 minutes à jouer avec.
Mais au final, Manus est une bête, c’est très excitant. La plupart des problèmes sont des corrections de bugs simples, ce sont des problèmes de bande passante et des corrections simples qui, je pense, peuvent être résolus dans le premier mois environ, à ce moment-là je pense qu’il va vraiment trouver son rythme et ce sera très intéressant à voir.
Faites-moi savoir si vous êtes d’accord. Si vous êtes arrivé jusqu’ici, merci beaucoup d’avoir regardé. Je m’appelle Wes R et je vous verrai la prochaine fois.
