API d’Agents OpenAI : Navigateur Web, Recherche et Multi-Agents Open Source

API d’Agents OpenAI : Navigateur Web, Recherche et Multi-Agents Open Source

OpenAI vient de terminer son livestream où ils ont présenté une série de nouvelles fonctionnalités d’agents, spécifiquement via leur API. Analysons ensemble ces annonces et leurs implications.

Qu’est-ce qu’un agent selon OpenAI ?

OpenAI définit un agent comme « un système qui peut agir indépendamment pour accomplir des tâches en votre nom ». Cette définition simple mais puissante englobe la capacité d’un système à fonctionner de manière autonome, à utiliser des outils, à maintenir une mémoire et à s’appuyer sur un modèle central d’intelligence artificielle.

Les trois nouveaux outils intégrés

Lors de cette présentation, OpenAI a dévoilé trois outils majeurs intégrés à leur nouvelle API :

1. L’outil de recherche web

Cet outil permet aux modèles d’accéder aux informations d’Internet, garantissant ainsi que les réponses sont à jour et factuelles. C’est une fonctionnalité fondamentale pour tout système d’IA, transformant une source d’information statique en un système capable d’accéder à des informations en temps réel.

Point intéressant : l’outil de recherche web est alimenté par un modèle GPT-4 spécifiquement affiné pour cette tâche. Ce modèle excelle dans l’analyse de grandes quantités de données récupérées du web, l’identification des informations pertinentes et leur citation claire dans les réponses.

Les tests sur le benchmark SimpleQA montrent que même les modèles de pointe comme GPT-4.5 et GPT-4o n’obtiennent pas de très bons résultats seuls, mais lorsqu’ils sont améliorés avec la recherche, ils atteignent des scores beaucoup plus élevés, Boro atteignant un score record de 90% ENT.

2. L’outil de recherche de fichiers

Lancé initialement l’année dernière dans l’API Assistants, cet outil permet aux développeurs de télécharger, découper et intégrer leurs documents pour faciliter l’implémentation de RAG (Retrieval Augmented Generation). Deux nouvelles fonctionnalités sont désormais disponibles :

  • Filtrage par métadonnées : possibilité d’ajouter des attributs aux fichiers pour filtrer facilement et ne conserver que les plus pertinents pour une requête donnée.
  • Point d’accès de recherche directe : permet de rechercher directement dans les magasins de vecteurs sans que les requêtes ne soient d’abord filtrées par le modèle.

Ces outils permettent essentiellement d’effectuer des recherches web pour les données publiques et des recherches privées pour les données internes.

3. L’outil d’utilisation d’ordinateur

Cet outil, équivalent à « Operator » dans l’API, permet de contrôler les ordinateurs sur lesquels vous travaillez. Qu’il s’agisse d’une machine virtuelle ou d’une application héritée dotée uniquement d’une interface graphique sans accès API, cet outil permet d’automatiser ces types de tâches.

L’outil utilise le même modèle que celui utilisé par Operator dans ChatGPT, et les premiers retours des utilisateurs sur le modèle et l’outil ont été très positifs.

La nouvelle API Responses

OpenAI a repensé son API pour prendre en charge ces nouveaux outils et fonctionnalités. L’API Chat Completions, lancée en mars 2023 avec GPT-3.5 Turbo, était initialement limitée aux interactions texte-entrée/texte-sortie. Depuis, OpenAI a introduit la multimodalité (images, audio), des outils, et des produits comme Claude 3 Pro, Deep Research et Operator qui effectuent plusieurs tours de modèle et appels d’outils en arrière-plan.

La nouvelle API Responses est conçue pour être suffisamment flexible pour prendre en charge ces multiples interactions et outils. Elle ressemble beaucoup à l’API Chat Completions, mais avec des capacités étendues.

Démonstration de l’API Responses

Lors de la présentation, l’équipe d’OpenAI a montré comment construire un assistant de style personnel en utilisant l’API Responses :

  1. Ils ont d’abord défini des instructions de base pour l’assistant.
  2. Ils ont ensuite ajouté l’outil de recherche de fichiers pour accéder à des informations sur les préférences vestimentaires des utilisateurs stockées dans un magasin de vecteurs.
  3. Ils ont utilisé les filtres de métadonnées pour cibler des utilisateurs spécifiques (« Elon » et « Kevin » dans leur démonstration).
  4. Ils ont ajouté l’outil de recherche web pour trouver des informations actuelles sur les tendances de la mode et les magasins à proximité.
  5. Enfin, ils ont intégré l’outil d’utilisation d’ordinateur pour permettre à l’assistant d’effectuer des achats en ligne en interagissant directement avec un navigateur web.

L’API permet de combiner ces différents outils dans une seule requête API, avec des instructions spécifiques sur la façon dont le modèle doit les utiliser.

Le SDK Agents (anciennement Swarm)

OpenAI a également annoncé la refonte de son SDK expérimental Swarm, désormais rebaptisé SDK Agents. Ce framework open source facilite l’orchestration de plusieurs agents pour créer des applications complexes.

Le SDK Agents permet de :

  • Définir plusieurs agents spécialisés avec des instructions et des outils spécifiques
  • Coordonner ces agents via un agent de triage
  • Effectuer des transferts de conversation entre agents tout en conservant le contexte
  • Utiliser des fonctions Python standard comme outils (le SDK génère automatiquement les schémas JSON nécessaires)
  • Bénéficier d’une interface de suivi et de débogage intégrée

Le SDK est open source et peut être installé via pip : pip install openai-agents, avec une version JavaScript à venir prochainement.

Points importants à retenir

  1. L’API Chat Completions n’est pas abandonnée : OpenAI continuera à la prendre en charge avec de nouveaux modèles et capacités, bien que certaines fonctionnalités avancées nécessitant des outils intégrés seront exclusives à l’API Responses.

  2. L’avenir de l’API Assistants : OpenAI prévoit d’ajouter plus de fonctionnalités à l’API Responses pour qu’elle puisse prendre en charge tout ce que l’API Assistants peut faire. Une fois cette transition terminée, ils partageront un guide de migration et prévoient de mettre fin à l’API Assistants vers 2026.

  3. 2025 : l’année des agents : Selon Kevin (d’OpenAI), 2025 sera « l’année des agents », où ChatGPT et les outils de développement passeront de simples réponses à des actions concrètes dans le monde réel.

Réflexions finales

Ces annonces s’inscrivent dans une semaine riche pour l’IA agentique, entre le lancement de Manis et maintenant l’API Responses d’OpenAI. Les modèles sous-jacents sont désormais suffisamment avancés, et l’accent est mis sur l’infrastructure autour de ces modèles : utilisation d’outils, serveurs MCP, environnements locaux pour écrire, exécuter et tester du code.

Le SDK Agents open source est particulièrement intéressant car il permet potentiellement d’utiliser d’autres modèles que ceux d’OpenAI, bien qu’il soit probablement optimisé pour fonctionner avec les modèles d’OpenAI.

Avec ces nouvelles API et outils, OpenAI offre aux développeurs une base solide pour construire des agents IA puissants et flexibles, capables d’interagir avec le web, les données privées et même de contrôler des ordinateurs pour accomplir des tâches complexes.

Featured image by Douglas Lopes on Unsplash