Le chef de l’IA de Meta déclare : « J’en ai fini avec les LLM » et propose une nouvelle architecture pour l’avenir de l’IA
Lors d’une récente conférence organisée par Nvidia, Yann LeCun, le directeur scientifique de l’IA chez Meta, a fait une déclaration surprenante qui a fait réagir l’audience : « Je ne suis plus vraiment intéressé par les LLM (Large Language Models) ». Cette affirmation peut sembler étonnante venant du responsable de l’IA d’une entreprise majeure comme Meta, mais LeCun maintient depuis longtemps cette position.
Pourquoi LeCun abandonne les modèles de langage
Selon LeCun, le chemin vers l’AGI (Intelligence Artificielle Générale) ne passera pas par les LLM, ou du moins, ces derniers ne constitueront pas l’architecture finale qui nous y mènera. À la place, il propose une nouvelle architecture appelée JEPA (Joint Embedding Predictive Architecture), un modèle du monde dont l’objectif est de planifier, raisonner et agir en toute sécurité dans le monde réel.
Cette vision n’est pas isolée. Demis Hassabis, PDG de Google DeepMind, a récemment tenu des propos similaires, évoquant la nécessité de construire un modèle du monde pour l’IA. Il a également mentionné le projet Astra de Google, qui permettrait à l’IA d’expérimenter le monde à travers les yeux des utilisateurs portant des lunettes connectées, lui donnant ainsi une meilleure compréhension du monde physique.
LeCun et d’autres experts suggèrent que si les LLM nous ont menés jusqu’ici, il manque encore des éléments essentiels pour atteindre l’AGI, voire une architecture complètement nouvelle.
Les limites des LLM selon LeCun
Lors de son interview, LeCun a souligné plusieurs domaines clés que les LLM ne peuvent pas adéquatement aborder :
« Comment faire en sorte que les machines comprennent le monde physique ? Comment leur donner une mémoire persistante, dont peu de gens parlent ? Et enfin, comment leur permettre de raisonner et de planifier ? Il y a bien sûr des efforts pour faire raisonner les LLM, mais à mon avis, c’est une vision très simpliste du raisonnement. Je pense qu’il existe probablement de meilleures façons de faire. »
LeCun se dit enthousiaste à propos de technologies qui, selon lui, passionneront la communauté technologique dans cinq ans, mais qui aujourd’hui semblent peu excitantes car elles se cachent dans d’obscurs articles académiques.
Qu’est-ce qu’un modèle du monde ?
Le concept de « modèle du monde » a été discuté par plusieurs experts, dont le Dr. Jim Fan et bien sûr Yann LeCun. Mais le premier à en avoir parlé était Jürgen Schmidhuber, qui prétend avoir inventé pratiquement tout ce qui touche à l’apprentissage automatique et à l’IA – et il a les publications pour le prouver.
Pour comprendre ce qu’est un modèle du monde, prenons l’exemple d’un chiot à qui l’on apprend à rapporter une balle. Au début, il est terriblement mauvais, ne comprenant pas ce qui arrive à la balle lorsqu’on la lance. Avec le temps, il développe un modèle mental de la façon dont la balle et la physique interagissent, comment la balle se comporte quand elle est lancée. En d’autres termes, ce chiot a construit un modèle interne du fonctionnement de la physique.
Ce n’est pas une compréhension mathématique ou scientifique profonde, mais plutôt un modèle mental qui prédit ce qui se passe dans le monde réel.
Comme l’explique le Dr. Jim Fan, citant LeCun :
« Grâce à ces modèles du monde, les animaux peuvent apprendre de nouvelles compétences avec très peu d’essais. Ils peuvent prédire les conséquences de leurs actions. Ils peuvent raisonner, planifier, explorer et imaginer de nouvelles solutions aux problèmes. Et surtout, ils peuvent éviter de commettre des erreurs dangereuses face à une situation inconnue. »
Pourquoi les tokens ne suffisent pas
LeCun explique ensuite pourquoi les LLM pourraient ne pas être la bonne approche pour construire ces modèles du monde. Les tokens, sur lesquels reposent tous les modèles d’IA actuels, sont discrets – ce sont des points de données individuels qui sont soit présents, soit absents.
Les tokens peuvent être des mots pour les grands modèles de langage, des images, des fragments de vidéo, ou même, comme dans AlphaFold, les façons dont les protéines se replient. Mais LeCun soutient que nous avons besoin de quelque chose qui n’est pas discret, mais plutôt continu.
Par exemple, lorsque nous regardons le monde, nous voyons un spectre continu de couleurs, pas un ensemble limité. En revanche, sur un écran d’ordinateur, les couleurs sont discrètes, limitées par ce que le moniteur peut afficher.
JEPA : La nouvelle architecture proposée
LeCun propose donc une architecture différente appelée JEPA (Joint Embedding Predictive Architecture) pour les modèles du monde. Voici comment il l’explique :
« Nous avons tous des modèles du monde dans notre esprit. C’est ce qui nous permet de manipuler des pensées. Nous avons un modèle du monde actuel. Vous savez que si je pousse cette bouteille par le haut, elle va probablement basculer. Mais si je la pousse par le bas, elle va glisser. Et si j’appuie trop fort, elle pourrait exploser. »
Nous acquérons ces modèles du monde physique dans les premiers mois de notre vie, et c’est ce qui nous permet d’interagir avec le monde réel. Selon LeCun, traiter avec le monde réel est beaucoup plus difficile que de traiter avec le langage.
« Le type d’architectures dont nous avons besoin pour des systèmes qui peuvent vraiment traiter avec le monde réel est complètement différent de ceux que nous utilisons actuellement. »
LeCun explique que les tokens sont discrets, avec un ensemble fini de possibilités (environ 100 000 dans un LLM typique). Lorsqu’on entraîne un système à prédire des tokens, on ne peut jamais l’entraîner à prédire le token exact qui suivra une séquence, mais plutôt une distribution de probabilité.
Le problème survient avec des données comme la vidéo, qui sont de haute dimension et continues. Toutes les tentatives pour faire comprendre le monde aux systèmes en les entraînant à prédire des vidéos au niveau des pixels ont échoué.
LeCun propose plutôt une approche d’embedding conjoint (joint embedding) qui n’essaie pas de reconstruire au niveau des pixels, mais plutôt d’apprendre une représentation abstraite de l’image, de la vidéo ou du signal naturel sur lequel le système est entraîné.
Comment fonctionne JEPA
LeCun utilise un exemple pour illustrer le problème des approches actuelles :
« Si je prends une vidéo de cette salle, que je fais un panoramique avec la caméra et que je m’arrête ici, et que je demande au système de prédire la suite de cette vidéo, il va probablement prédire qu’il s’agit d’une salle avec des gens assis, etc. Mais il n’y a aucun moyen qu’il puisse prédire à quoi ressemble chacun d’entre vous. C’est complètement imprévisible à partir du segment initial de la vidéo. »
Il y a beaucoup de choses dans le monde qui ne sont tout simplement pas prévisibles. Si l’on entraîne un système à prédire au niveau des pixels, il dépense toutes ses ressources à essayer d’inventer des détails qu’il ne peut pas prévoir, ce qui est un gaspillage total de ressources.
Au lieu de cela, JEPA fonctionne au niveau des représentations :
- Prendre un morceau de vidéo, d’image ou autre et le faire passer par un encodeur pour obtenir une représentation
- Prendre la suite de ce texte, vidéo ou version transformée de l’image et la faire passer par un encodeur également
- Essayer de faire une prédiction dans cet espace de représentation plutôt que dans l’espace d’entrée
La difficulté est que si l’on n’est pas prudent, le système peut s’effondrer, ignorant complètement l’entrée et produisant une représentation constante peu informative. Il a fallu attendre ces 5-6 dernières années pour développer des techniques empêchant cela.
Pour un système capable de raisonner et de planifier, ce prédicteur doit pouvoir, en observant une partie d’une vidéo, se faire une idée de l’état actuel du monde et prédire quel sera le prochain état du monde si une action est entreprise.
« Ce dont vous avez besoin est un prédicteur qui, étant donné l’état du monde et une action que vous imaginez, peut prédire le prochain état du monde. Et si vous avez un tel système, vous pouvez planifier une séquence d’actions pour arriver à un résultat particulier. C’est la vraie façon dont nous planifions et raisonnons tous. Nous ne le faisons pas dans l’espace des tokens. »
Une critique des systèmes de raisonnement actuels
LeCun critique les systèmes de raisonnement dits « agentiques » actuels :
« La façon dont ils fonctionnent est qu’ils génèrent d’énormes quantités de séquences de tokens en utilisant différentes méthodes de génération stochastique. Puis un second réseau neuronal tente de sélectionner la meilleure séquence parmi toutes celles générées. C’est comme écrire un programme sans savoir comment écrire un programme. Vous écrivez une sorte de programme aléatoire, puis vous les testez tous et vous gardez celui qui donne la bonne réponse. C’est complètement sans espoir. »
Il reconnaît que pour des programmes très courts, cette approche peut fonctionner, mais elle devient rapidement impossible car la complexité croît exponentiellement avec la longueur.
Une prédiction inquiétante sur l’avenir de l’IA
LeCun fait une prédiction que certains pourraient trouver inquiétante. Historiquement, nous avons connu des cycles où une nouvelle percée est saluée comme la voie vers l’AGI, avant de se heurter à des barrières qui freinent les progrès, conduisant à des « hivers de l’IA ».
Contrairement à des figures comme Ilya Sutskever (ancien d’OpenAI, maintenant chez SSI) ou Dario Amodei qui affirment que cette fois, la vague actuelle nous mènera loin, LeCun va à contre-courant :
« Historiquement en IA, génération après génération de chercheurs en IA ont découvert un nouveau paradigme et ont affirmé que c’était ça, que dans 10 ans ou 5 ans, nous aurions une intelligence de niveau humain, des machines plus intelligentes que les humains dans tous les domaines. Ça a été le cas pendant 70 ans, avec ces vagues tous les 10 ans environ. La vague actuelle se trompe également. »
Il qualifie de « non-sens complet » l’idée qu’il suffirait d’augmenter l’échelle des LLM pour atteindre l’intelligence humaine ou d’avoir « un pays de génies dans un centre de données » dans quelques années.
« Bien sûr, il y aura beaucoup d’applications pour lesquelles les systèmes dans un futur proche seront au niveau d’un doctorat si vous voulez, mais en termes d’intelligence globale, non, nous en sommes encore très loin. Quand je dis très loin, cela pourrait arriver d’ici une décennie environ, donc ce n’est pas si loin. »
Si LeCun a raison, cela signifierait que toute cette effervescence actuelle ne nous mènera pas beaucoup plus loin que là où nous sommes maintenant, et que ce boom finira par s’essouffler.
Applications actuelles et futures de l’IA
Malgré son scepticisme concernant les LLM comme voie vers l’AGI, LeCun reconnaît les nombreuses applications utiles de l’IA actuelle :
« Je pense que l’impact de l’IA sur la science et la médecine sera probablement beaucoup plus important que ce que nous pouvons actuellement imaginer, même s’il est déjà assez important. Pas seulement en termes de recherche pour des choses comme le repliement des protéines et la conception de médicaments, mais aussi à court terme. »
Il mentionne l’imagerie médicale, où l’IA est déjà impliquée dans le dépistage préalable des mammographies pour détecter les tumeurs, ou les machines IRM où le temps passé dans la machine est réduit d’un facteur quatre grâce à l’IA qui peut restaurer des versions haute résolution d’images IRM avec moins de données.
Il évoque également les systèmes d’assistance à la conduite et de freinage d’urgence automatique, qui réduisent les collisions de 40% et sauvent des vies.
« Ce n’est pas de l’IA générative, ce n’est pas des LLM, c’est essentiellement de la perception et un peu de contrôle pour les voitures. »
Il reconnaît les nombreuses applications des LLM dans l’industrie et les services, mais souligne aussi leurs limitations, notamment la difficulté à déployer des systèmes avec le niveau de précision et de fiabilité attendu.
Système 1 et Système 2 : deux façons de penser
LeCun aborde ensuite le concept de pensée de Système 1 et Système 2, de plus en plus discuté dans le domaine de l’IA :
« Les psychologues parlent du Système 1 et du Système 2. Le Système 1 concerne les tâches que vous pouvez accomplir sans vraiment y réfléchir. Vous y êtes habitué et vous pouvez les accomplir sans trop y penser. Par exemple, si vous êtes un conducteur expérimenté, vous pouvez conduire sans assistance à la conduite, sans trop y penser. Vous pouvez parler à quelqu’un en même temps, etc. »
« Mais si vous conduisez pour la première fois ou les premières heures au volant, vous devez vraiment vous concentrer sur ce que vous faites. Vous planifiez toutes sortes de scénarios catastrophiques. C’est le Système 2. Vous recrutez tout votre cortex préfrontal, votre modèle du monde interne, pour déterminer ce qui va se passer et planifier des actions pour que de bonnes choses se produisent. »
LeCun explique que lorsque nous sommes familiers avec une tâche, nous pouvons simplement utiliser le Système 1 et l’accomplir automatiquement. L’idée est qu’on commence par utiliser son modèle du monde (Système 2) pour accomplir une tâche jamais rencontrée auparavant, sans apprentissage préalable, uniquement sur la base de notre compréhension du monde et de nos capacités de planification.
« C’est ce qui manque dans les systèmes actuels. Mais si vous accomplissez cette tâche plusieurs fois, elle finit par être compilée dans ce qu’on appelle une politique, un système réactif qui vous permet d’accomplir cette tâche sans planification. Le premier élément, ce raisonnement, c’est le Système 2. La sorte de politique réactive, subconsciente, automatique, c’est le Système 1. »
Selon LeCun, les LLM actuels peuvent faire le Système 1 et tentent progressivement d’aborder le Système 2, mais il pense qu’une architecture différente est nécessaire pour le Système 2.
« Je pense que ce ne sera pas une architecture générative si vous voulez que le système comprenne le monde physique. Le monde physique est beaucoup, beaucoup plus difficile à comprendre que le langage. Nous pensons au langage comme l’apogée des capacités intellectuelles humaines. Mais en fait, le langage est simple parce qu’il est discret. Et il est discret parce que c’est un mécanisme de communication et il doit être discret, sinon il ne serait pas résistant au bruit. Vous ne pourriez pas comprendre ce que je dis en ce moment. Donc il est simple pour cette raison. Mais le monde réel est beaucoup plus compliqué. »
La différence d’échelle entre le texte et la vision
LeCun illustre l’énorme différence d’échelle entre les données textuelles et visuelles :
« Les LLM actuels sont généralement entraînés avec environ 30 billions de tokens. Un token représente environ trois octets, donc c’est 0,9 × 10^13 octets, disons 10^14 octets. Cela nous prendrait à chacun plus de 400 000 ans à lire, car c’est la totalité de tous les textes disponibles. »
« Maintenant, les psychologues nous disent qu’un enfant de 4 ans a été éveillé pendant un total de 16 000 heures. Nous avons environ 2 mégaoctets qui vont à notre cortex visuel à travers notre nerf optique chaque seconde. Multipliez cela par 16 000 heures fois 3 600, c’est environ 10^14 octets en quatre ans à travers la vision. Vous voyez autant de données que de texte qu’il vous faudrait 400 000 ans à lire. Cela vous dit que nous n’atteindrons jamais l’AGI, quoi que vous entendiez par là, simplement en nous entraînant à partir de texte. Ça n’arrivera tout simplement pas. »
L’approche JEPA en détail
LeCun explique ensuite plus en détail comment fonctionne le modèle JEPA. Lorsque nous voyons quelque chose qui ne correspond pas à notre modèle mental, nous sommes surpris. Si vous voyez un objet flotter dans l’air, vous y prêterez attention, car il y a un écart entre ce que vous pensiez qu’il devrait se passer et ce qui se passe réellement.
Cela se produit parce qu’au cours de votre vie, vous avez observé comment les objets se comportent. Les données visuelles entrent dans vos yeux, et lentement, au fil du temps, vous formez une représentation abstraite du comportement des objets. Vous comprenez que si quelque chose a une masse et n’est pas soutenu, il tombera au sol.
Vous n’avez pas besoin de dessiner une image ou d’écrire des mots pour comprendre cela. Vous le comprenez à un certain niveau dans votre cerveau.
Dans JEPA, les deux premières lettres « JE » signifient « Joint Embedding » (embedding conjoint). Les données visuelles entrent dans vos yeux, et au fil du temps, votre cerveau apprend à prédire l’état des objets basé sur ces données visuelles. Votre capacité à comprendre l’état de quelque chose et les données visuelles sont jointes, connectées d’une certaine manière.
En comprenant cet état, vous pouvez ensuite l’exprimer comme vous le souhaitez – dessiner une image, dire des mots, etc. Comme le dit LeCun, ce n’est pas une entrée visuelle qui donne une sortie visuelle, mais plutôt une entrée multimodale (audio, visuelle, tactile) qui est encodée dans votre représentation, puis peut être exprimée de différentes façons.
LeCun pense que c’est ce type d’architecture que nous devons créer pour atteindre l’AGI, et que les LLM seuls ne nous y mèneront pas.
Des expériences concrètes avec JEPA
LeCun partage une expérience réalisée par son équipe :
« Nous avons maintenant un projet appelé VJA, et nous approchons de la version 2, où c’est essentiellement une de ces architectures prédictives à embedding conjoint. Elle fait des prédictions sur la vidéo, mais au niveau de la représentation, et cela semble très bien fonctionner. »
« La première version est entraînée sur des vidéos très courtes, seulement 16 images, et elle est entraînée pour prédire la représentation d’une vidéo complète à partir d’une version partiellement masquée. Ce système est apparemment capable de vous dire si une vidéo particulière est physiquement possible ou non, du moins dans des cas restreints. »
Le système mesure l’erreur de prédiction qu’il produit. On prend une fenêtre glissante de ces 16 images sur une vidéo et on regarde si on peut prédire les prochaines images. On mesure l’erreur de prédiction, et quand quelque chose de vraiment étrange se produit dans la vidéo – comme un objet qui disparaît, change de forme ou n’obéit pas aux lois de la physique – l’erreur augmente considérablement.
L’absence de dialogue interne chez LeCun
Un fait fascinant est qu’à un moment donné, quelqu’un sur Twitter a demandé à LeCun s’il avait un dialogue interne, ce à quoi il a répondu qu’il n’en avait pas. C’est intéressant car la plupart des gens ont un monologue intérieur – nous nous parlons à nous-mêmes, nous réfléchissons en mots.
Certaines personnes n’ont pas ce dialogue interne et pensent plutôt en images, en sentiments et en concepts plus abstraits. Cela pourrait expliquer en partie pourquoi LeCun est sceptique quant à l’utilisation du langage comme voie vers l’AGI – sa propre façon de penser ne repose pas sur un dialogue verbal interne.
Conclusion : Un avenir incertain pour les LLM
LeCun termine en exprimant son scepticisme quant aux technologies émergentes comme l’informatique quantique et les implémentations optiques des réseaux neuronaux, qui ont souvent promis beaucoup mais n’ont pas donné de résultats concrets.
Sa vision de l’avenir de l’IA remet en question la trajectoire actuelle centrée sur les LLM. Si LeCun a raison, nous pourrions assister à un changement fondamental dans la façon dont l’IA est développée dans les années à venir, avec des architectures comme JEPA prenant le relais pour nous rapprocher véritablement de l’AGI.
Seul le temps nous dira si LeCun est en avance sur son temps ou si les LLM continueront à dominer le paysage de l’IA dans un avenir prévisible.