DLM : La Révolution des Modèles de Langage par Diffusion – 10 Fois Plus Rapide et Moins Coûteux

Une percée majeure vient de se produire dans le domaine des grands modèles de langage (LLM). Une nouvelle approche, inspirée des modèles de génération d’images, promet d’être 10 fois plus rapide et 10 fois moins coûteuse. Bienvenue dans l’ère des modèles de langage par diffusion (Diffusion Large Language Models ou DLM).

Comment fonctionnent les DLM comparés aux LLM traditionnels

Les grands modèles de langage traditionnels fonctionnent de manière séquentielle :

  • Ils génèrent un token, puis le suivant, et ainsi de suite
  • Chaque nouveau token dépend du précédent
  • La génération se fait étape par étape, de façon linéaire

Les nouveaux modèles de langage par diffusion, quant à eux, révolutionnent cette approche :

  • Ils génèrent la réponse entière d’un seul coup, sous une forme très approximative
  • Puis ils affinent itérativement cette réponse jusqu’à obtenir le résultat final
  • Ce processus est exactement similaire à celui utilisé par les modèles de diffusion pour la génération d’images

Dans les modèles de génération d’images par diffusion, le processus commence par une image complètement bruitée qui est progressivement affinée. Avec suffisamment d’itérations, l’image devient reconnaissable. C’est cette même approche qui est maintenant appliquée aux modèles de langage.

Inception Labs : Pionnier des DLM

La société derrière cette innovation s’appelle Inception Labs. Ils ont développé ce qu’ils présentent comme le premier modèle de langage par diffusion de qualité professionnelle.

La différence est frappante :

  • Un LLM auto-régressif traditionnel génère un token après l’autre
  • Le DLM commence par un ensemble de texte presque incohérent et l’affine en seulement 14 itérations, contre 75 itérations pour un modèle traditionnel

Les avantages sont considérables : 10 fois plus rapide, 10 fois moins coûteux.

L’impact sur le temps de calcul et les performances

Cette innovation va être particulièrement puissante pour le calcul au moment de l’inférence. Avec les lois d’échelle actuelles, les modèles de pointe sont devenus relativement lents pour fournir une réponse finale :

  • Les modèles traditionnels fonctionnent à 40-60 tokens par seconde, ce qui peut signifier plusieurs minutes d’attente
  • Les DLM atteignent plus de 1000 tokens par seconde, réduisant l’attente à quelques secondes

Cela permet d’allouer beaucoup plus de puissance de calcul aux problèmes tout en obtenant des réponses dans un délai raisonnable. Le plus grand goulot d’étranglement pour l’amélioration de l’intelligence artificielle est actuellement la vitesse à laquelle ces modèles fonctionnent.

Prenons l’exemple de la programmation : avec les modèles traditionnels, vous pourriez attendre 5 à 15 minutes pour qu’un agent développe et itère sur une solution. Imaginez si ce temps était réduit à seulement 30 secondes – le potentiel est énorme.

Mercury : Des performances impressionnantes sans matériel spécialisé

Le modèle Mercury de Inception Labs est 10 fois plus rapide que les LLM optimisés pour la vitesse de la série Frontier. Il fonctionne à plus de 1000 tokens par seconde sur une puce Nvidia H100 – un composant standard que tous les autres grands modèles de langage peuvent utiliser, et non pas une puce personnalisée.

Plus impressionnant encore, Mercury est un modèle spécialisé dans la génération de code, ce qui pourrait transformer radicalement la façon dont la programmation fonctionne.

Démonstration en action

Lors d’une démonstration, Mercury a impressionné par sa rapidité et ses capacités :

  1. Premier exemple : création d’un système de particules où les particules suivent le curseur de la souris, avec des contrôles pour la vitesse, la taille et la couleur des particules, utilisant HTML5 Canvas pour une animation fluide. Le code a été généré en quelques secondes et fonctionnait parfaitement.

  2. Deuxième exemple : écriture d’un modèle Bi-gram simple en Python, généré presque instantanément.

Bien que la génération semble séquentielle à l’observation, ce n’est pas ce qui se passe en réalité. Le modèle génère l’intégralité du contenu d’un coup sous une forme brute, puis l’améliore itérativement.

En activant l’effet de diffusion visible, on peut observer le processus : au début, on ne voit que du charabia, puis progressivement et très rapidement, le texte s’affine pour devenir cohérent. Dans un autre exemple, un jeu de serpent fonctionnel a été créé en quelques secondes.

Performances comparatives

Les benchmarks montrent des résultats impressionnants :

  • Sur un graphique d’Artificial Analysis, avec la vitesse de sortie sur l’axe X et l’indice de codage sur l’axe Y, Mercury Coder Small se positionne à peu près au même niveau que GPT-4o Mini en termes de qualité, mais avec une vitesse bien supérieure
  • Mercury Coder Mini atteint plus de 1100 tokens par seconde, comparable à DC Coder V2 Light et d’autres petits modèles

L’avantage crucial est qu’avec plus de temps de calcul au moment de l’inférence, ces modèles peuvent devenir plus intelligents. Et comme l’inférence est si rapide, on peut exécuter beaucoup plus de calculs en très peu de temps.

Avantages des modèles de diffusion par rapport aux modèles auto-régressifs

Les entreprises de pointe dans le domaine des LLM misent sur le calcul au moment de l’inférence pour améliorer le raisonnement et la correction d’erreurs. Cependant, ces longues générations entraînent des coûts élevés en termes de latence et de coût par token.

Les modèles de diffusion offrent un changement de paradigme complet :

  • Ils fonctionnent avec un processus de génération global où la sortie est affinée à partir d’un bruit pur en quelques étapes de débruitage
  • Ils ne sont pas limités à ne considérer que la sortie précédente, ce qui les rend potentiellement meilleurs pour le raisonnement et la structuration des réponses
  • Ils peuvent continuer à affiner leurs sorties, corrigeant ainsi les erreurs et les hallucinations

Ce modèle de diffusion pour le texte prend en charge tous les cas d’utilisation, y compris le RAG (Retrieval-Augmented Generation), l’utilisation d’outils et les flux de travail agentiques.

Vitesse comparative : Mercury vs Claude et ChatGPT

Une démonstration comparative montre la différence de vitesse impressionnante :

  • Mercury termine la génération de code en seulement 6 secondes
  • ChatGPT prend 36 secondes pour la même tâche
  • Claude prend 28 secondes

C’est une augmentation de vitesse d’un facteur substantiel.

Implications pour l’avenir de l’IA

Ce type d’architecture, avec cette vitesse et cette empreinte réduite, a des implications considérables :

1. Agents d’IA plus efficaces

Les agents d’IA sont actuellement limités par la vitesse du modèle qu’ils utilisent. Avec des modèles beaucoup plus rapides, les agents peuvent travailler plus efficacement, accomplir davantage de tâches et offrir une qualité supérieure.

2. Raisonnement avancé

Avec une inférence moins coûteuse et plus rapide, les modèles peuvent effectuer beaucoup plus de calculs au moment de l’inférence, ce qui leur permet de mieux performer. Nous avons déjà vu plusieurs exemples où plus un modèle a de temps de réflexion, mieux il performe.

3. Génération contrôlable

Les DLM peuvent modifier leur sortie et générer des tokens dans n’importe quel ordre, permettant aux utilisateurs :
– D’insérer du texte
– D’aligner les sorties avec des objectifs comme la sécurité
– De produire des sorties qui se conforment de manière fiable aux formats spécifiés par l’utilisateur

Comme le modèle peut tout faire en même temps, il a plus de contrôle sur sa sortie.

4. Applications en périphérie

L’empreinte de ces modèles étant si petite mais leurs capacités si grandes, ils peuvent être exécutés sur un ordinateur portable ou de bureau. Ce sont des modèles plus petits conçus pour fonctionner en périphérie.

L’avis d’Andrej Karpathy

Andrej Karpathy, l’une des figures de proue de l’intelligence artificielle, a commenté cette innovation. Selon lui :

« La plupart des outils de génération d’images et de vidéos fonctionnent de cette manière (par diffusion et non par auto-régression). Seuls le texte et parfois l’audio ont résisté. C’est un mystère pour moi et beaucoup d’autres pourquoi, pour une raison quelconque, le texte préfère l’auto-régression alors que les images et les vidéos préfèrent la diffusion.

Cela s’avère être un sujet assez profond qui a à voir avec la distribution de l’information et du bruit, et notre propre perception de ceux-ci dans ces domaines. Si l’on regarde d’assez près, beaucoup de connexions intéressantes émergent également entre les deux.

Tout cela pour dire que ce modèle a le potentiel d’être différent et de présenter éventuellement une nouvelle psychologie unique ou de nouvelles forces et faiblesses. J’encourage les gens à l’essayer. »

Un article scientifique publié il y a environ un mois, intitulé « Large Language Diffusion Models », proposait la même approche, mais ne s’accompagnait pas d’un modèle fonctionnel. Maintenant, nous l’avons.

Conclusion

Les modèles de langage par diffusion représentent potentiellement un nouveau type de modèle capable de susciter de nouveaux comportements de la part de ces systèmes intelligents. Cette approche novatrice, inspirée des techniques de génération d’images, pourrait transformer radicalement notre interaction avec l’IA en offrant des réponses plus rapides, moins coûteuses et potentiellement plus précises.

La vitesse accrue de ces modèles ouvre la voie à des applications plus sophistiquées, notamment dans le domaine de la programmation assistée par IA, où le temps d’attente entre les itérations peut être considérablement réduit. L’avenir de l’IA conversationnelle pourrait bien être façonné par cette nouvelle génération de modèles de langage par diffusion.