La guerre des plateformes d’agents s’intensifie avec le lancement du SDK Agents par OpenAI

La guerre des plateformes d’agents s’intensifie alors qu’OpenAI vient de dévoiler une nouvelle série d’outils dédiés à la création d’agents intelligents. Cette annonce majeure pourrait bien redéfinir le paysage de l’IA dans les mois à venir.

Un arsenal complet d’outils pour les développeurs d’agents

OpenAI a frappé fort avec une annonce détaillée présentant plusieurs nouveautés qui vont considérablement accélérer le développement d’agents IA. Parmi les éléments dévoilés, on trouve :

  • La nouvelle API Responses qui combine la simplicité de l’API Chat Completions avec les capacités d’utilisation d’outils de l’API Assistants pour construire des agents
  • Des outils intégrés incluant la recherche web, la recherche de fichiers et l’utilisation d’ordinateur
  • Un nouveau SDK Agents pour orchestrer des workflows impliquant un ou plusieurs agents
  • Des outils d’observabilité intégrés pour suivre et inspecter l’exécution des workflows des agents

Décryptage des nouvelles fonctionnalités

Face à cette annonce technique dense, l’analyse d’Elvis, lui-même développeur d’agents, s’avère particulièrement éclairante :

Les outils intégrés

OpenAI a déjà lancé deux grandes solutions d’agents comme Deep Research et Operator. Ces outils sont maintenant disponibles via les API pour que les développeurs puissent créer leurs propres agents :

  1. L’outil de recherche web – Permet aux modèles d’accéder aux informations sur internet pour des réponses actualisées et factuelles. C’est le même outil qui alimente la recherche de ChatGPT, propulsé par un modèle finement ajusté.

  2. L’outil de recherche de fichiers – Particulièrement utile pour les cas d’utilisation de RAG (Retrieval Augmented Generation) agentique. Il prend désormais en charge le filtrage par métadonnées et dispose d’un point d’accès de recherche direct qui permet d’interroger directement vos bases de données vectorielles.

  3. L’outil d’utilisation d’ordinateur – Similaire à Operator mais disponible via les API, il permet de contrôler l’ordinateur sur lequel vous travaillez. Cet outil s’accompagne du modèle « computer use » utilisé par Operator.

L’API Responses

Contrairement à l’API Chat Completions traditionnelle, cette nouvelle API est suffisamment flexible pour prendre en charge plusieurs tours de conversation et outils de manière plus native. Elle peut appeler plusieurs outils simultanément et fournir une réponse finale en une seule requête. L’outil d’utilisation d’ordinateur peut également être utilisé avec l’API Responses, avec la possibilité d’ajouter des instructions et de personnaliser l’affichage.

Le SDK Agents

OpenAI a également rendu Swarm, leur framework d’orchestration d’agents, plus adapté à la production. Rebaptisé SDK Agents, il utilise l’API Responses en arrière-plan, mais d’autres fournisseurs sont également pris en charge. Ce SDK, qui est open source, prend en charge la construction de systèmes multi-agents dès le départ :

  • Un agent de triage peut transmettre des tâches avec le contexte pertinent pour exécuter des tâches
  • Il prend également en charge la surveillance et le traçage intégrés, qui peuvent être utilisés pour déboguer vos agents
  • Une interface utilisateur de traçage est disponible pour suivre les traces de vos workflows agentiques

Une stratégie claire pour dominer le marché des agents

Il est évident qu’OpenAI affirme sa position dans l’espace en plein essor de la création d’agents. Même si l’entreprise développera certainement des agents qu’elle gardera pour elle-même afin de maintenir une relation directe avec les clients, elle reconnaît qu’elle ne pourra pas tout construire, mais souhaite néanmoins avoir une part de chaque innovation.

Olivier Godman d’OpenAI explique : « Il y a certains agents que nous pourrons construire nous-mêmes comme Deep Research et Operator. Le monde est si complexe, il y a tant d’industries et de cas d’utilisation, et nous sommes super enthousiastes à l’idée de fournir ces fondations, ces blocs de construction pour que les développeurs puissent créer les meilleurs agents pour leurs cas d’utilisation et leurs besoins.« 

Concernant la relation entre l’API Responses et le SDK Agents, le chef de projet N Honda précise : « L’API Responses est comme cette unité atomique d’utilisation de modèles et d’outils pour faire une chose particulière. Le SDK Agents consiste à faire travailler ensemble plusieurs de ces unités atomiques pour résoudre des tâches encore plus complexes.« 

L’impact sur l’écosystème de l’IA

Simon Taylor résume parfaitement l’importance de cette annonce : « L’API Responses et le SDK Agents d’OpenAI marquent un moment crucial dans la guerre des plateformes d’IA. L’objectif est de rendre la construction d’agents de workflow triviale et facile. Il peut faire des choses comme se connecter à des navigateurs, des fichiers et des applications, chaîner plusieurs agents ensemble et surveiller les performances en temps réel. La plupart des startups ont passé l’année dernière à construire ce qu’OpenAI vient de donner gratuitement.« 

Cette annonce remplace :
– Des mois d’ingénierie de prompts et d’itération de logique d’orchestration complexe
– Des ajustements fins et des tests sans fin (observabilité et évaluations)

En fin de compte, OpenAI tente de devenir la plateforme tout-en-un. Le marché proposé est le suivant : « Nous rendrons les outils faciles si vous utilisez notre LLM, mais vous ne pourrez pas utiliser Claude 3.7 (que beaucoup apprécient)« . Pour de nombreux développeurs, cette offre sera tentante.

Ce n’est pas la fin de la compétition, mais plutôt le début. Il existe désormais deux visions du monde : le protocole de contexte de modèle ouvert de Claude et le SDK d’utilisation d’outils et l’API Responses d’OpenAI. C’est un moment majeur dans la guerre des plateformes d’agents qui déterminera la forme de nombreuses innovations à venir dans les prochains mois.

D’autres innovations d’OpenAI en préparation

Les nouvelles concernant OpenAI ne s’arrêtent pas là. L’entreprise semble également développer un nouvel agent axé sur l’écriture, ou du moins un nouveau modèle dédié à cette tâche.

Hier, Sam Altman a tweeté : « Nous avons entraîné un nouveau modèle qui est bon en écriture créative. Pas encore sûr de comment et quand il sera publié. C’est la première fois que je suis vraiment frappé par quelque chose écrit par l’IA. Il a parfaitement capturé l’ambiance de la méta-fiction. » Bien que le contenu exact de l’histoire courte n’ait pas été partagé, il semble que ce modèle excelle particulièrement dans la méta-fiction, brisant le quatrième mur avec brio.

Une autre rumeur circule suite à une mention subtile dans le journal des modifications de l’API d’OpenAI. Le post faisait référence à un modèle appelé « o3-mini-pro ». Lorsqu’on lui a demandé de corriger cette supposée faute de frappe, Adam de l’équipe go-to-market d’OpenAI a commenté : « Je ne vois pas de fautes de frappe. Bien que nous n’ayons pas d’informations officielles, vous pouvez probablement deviner ce que fait le modèle en fonction de son nom. S’il suit la même convention que o1-pro, ce sera une version plus capable du modèle sous-jacent qui utilise significativement plus d’inférence.« 

Concernant cette convention de nommage, un utilisateur nommé Chubby a plaisanté : « S’il vous plaît, ne créez pas un o3-mini-pro à côté de o1-pro et o3-mini et o3-mini-high et o3 et o3-pro, s’il vous plaît.« 

Meta entre dans la course des puces IA

En parallèle, Meta a commencé à tester ses propres puces conçues en interne pour l’entraînement d’IA, selon Reuters. Le premier lot est arrivé de TSMC, et Meta a mis en place un petit cluster pour les tests.

Une source a mentionné que la puce est un accélérateur d’IA dédié plutôt qu’un GPU, ce qui pourrait la rendre plus économe en énergie. Il s’agit du premier « tape-out » pour cette puce, le processus de finalisation de la conception et de réalisation du premier test. Il est très courant que les puces passent par plusieurs tape-outs pour affiner la conception et résoudre les problèmes avant que la production ne soit prête à monter en puissance. Chaque tape-out prend généralement entre 3 et 6 mois.

Meta a déjà déployé des puces IA personnalisées auparavant, mais uniquement pour l’inférence plutôt que pour l’entraînement. En effet, un effort pour développer une puce d’inférence en 2022 s’est plutôt mal passé (ARAI), conduisant Meta à abandonner le projet et à pivoter pour devenir le plus grand client de NVIDIA dans un effort pour rattraper son retard dans la course à l’IA.

Si ce test est réussi et que Meta peut augmenter la production, ce sera une étape importante vers la réduction de la dépendance à NVIDIA. Le calendrier pour cela est encore d’au moins 6 mois, même si tout se déroule comme prévu. Néanmoins, le développement des infrastructures se poursuit à un rythme soutenu.

La guerre des plateformes d’agents ne fait que commencer, et avec ces nouveaux outils d’OpenAI et les avancées matérielles de Meta, nous assistons à une accélération sans précédent de l’innovation dans le domaine de l’IA.