Construction d’un Agent Vocal : Une Étude de Cas avec Super Intelligent et Fractional

Construction d’un Agent Vocal : Une Étude de Cas avec Super Intelligent et Fractional

Au cours des six derniers mois, l’équipe de Super Intelligent a développé un agent vocal sophistiqué qui constitue le cœur d’un nouveau type de consultant automatisé. Cet agent est déployé dans le cadre de leurs audits de préparation aux agents IA. Aujourd’hui, nous explorons en détail ce processus de développement avec leurs partenaires de Fractional, offrant ainsi un aperçu précieux de la construction d’un agent vocal fonctionnel.

Qu’est-ce qu’un audit de préparation aux agents IA ?

Les audits de préparation aux agents sont un processus par lequel Super Intelligent interroge les employés d’une entreprise sur :

  • Toutes les activités liées à l’IA et aux agents qu’ils mènent actuellement
  • Leur travail de manière plus générale

L’objectif est double :
1. Évaluer leur utilisation de l’IA et des agents par rapport à leurs pairs et concurrents
2. Cartographier les opportunités de déploiement d’agents pour créer de la valeur

L’élément central de cette approche est un agent vocal capable d’interviewer simultanément des dizaines, des centaines, voire des milliers de personnes, à leur convenance, 24h/24 et 7j/7. Cette capacité représente une avancée considérable par rapport aux méthodes traditionnelles de collecte d’informations.

Présentation des intervenants

Chris, PDG et co-fondateur de Fractional, explique que leur entreprise est fondée sur la conviction que les plus grands gagnants de la révolution de l’IA seront les entreprises non-IA traditionnelles qui utiliseront l’IA générative pour améliorer leurs opérations, produits et services. Ces entreprises ont besoin d’ingénieurs de haut niveau capables de transformer cette technologie en systèmes de production fiables.

La vision de Fractional est de rassembler ces ingénieurs pour travailler sur des projets d’IA générative, partager les meilleures pratiques et construire la meilleure équipe d’ingénierie d’IA appliquée au monde.

Construire ou acheter : le dilemme des agents IA

Une question fondamentale pour les entreprises envisageant une transformation par l’IA est de savoir s’il faut construire ou acheter des solutions d’agents. Eddie de Fractional souligne que tout existe sur un spectre :

« Il est assez rare de trouver un flux de travail adapté à une solution basée sur des agents où l’on peut simplement acheter quelque chose sur étagère qui fonctionne parfaitement. Les solutions prêtes à l’emploi sont excellentes pour les outils de productivité à usage général, mais pour des flux de travail spécifiques dans votre entreprise, c’est différent. »

Il existe un éventail d’approches :
– Construction complète à partir de zéro
– Construction sur des primitives puissantes nouvellement disponibles
– Intégration d’outils existants

Leur expérience montre que même les solutions « prêtes à l’emploi » nécessitent une personnalisation significative.

Pourquoi les agents vocaux suscitent-ils tant d’intérêt ?

Chris identifie plusieurs raisons à l’engouement pour les agents vocaux :

  1. Amélioration technologique : La technologie s’est considérablement améliorée, rendant les interactions vocales beaucoup plus naturelles
  2. Applications évidentes : Toute entreprise disposant d’un centre d’appels ou confrontée à un goulot d’étranglement lié à la voix voit immédiatement l’intérêt
  3. Expérience utilisateur positive : Les interactions avec les agents vocaux sont généralement agréables pour les consommateurs

Eddie ajoute que la voix est particulièrement adaptée à certains types de collecte de données :

« Il y a une raison pour laquelle, lorsque vous faites des recherches sur ce qui se passe dans une grande entreprise, vous interviewez des personnes au lieu de simplement leur envoyer un questionnaire. La saisie de données fixe ne convient pas aux situations où vous souhaitez des réponses ouvertes et où vous voulez que les gens réfléchissent à voix haute. »

Avantages distinctifs des agents vocaux pour les entretiens

L’agent vocal développé par Super Intelligent et Fractional présente plusieurs avantages majeurs par rapport aux entretiens humains traditionnels :

  1. Facilité d’expression : Il est beaucoup plus facile pour la plupart des gens de parler que de taper des réponses structurées
  2. Rapidité : La quantité d’informations recueillies par unité de temps est considérablement plus élevée
  3. Flexibilité horaire : Les entretiens peuvent avoir lieu à n’importe quel moment, selon la disponibilité de la personne interrogée
  4. Scalabilité : Possibilité d’interviewer des centaines ou des milliers de personnes simultanément
  5. Efficacité des ressources : Pas besoin d’engager une équipe de consultants pour la collecte de données

Fait intéressant, les consultants eux-mêmes voient cette technologie comme complémentaire plutôt que disruptive. Ils préfèrent concentrer leur budget et leurs efforts sur l’analyse et les recommandations plutôt que sur la simple collecte de données.

Développement technique de l’agent vocal

Architecture et défis techniques

Eddie explique que l’agent fonctionne en étant configuré avec des ensembles de questions d’entretien et d’objectifs. L’agent est responsable de décider comment formuler ces questions, quand effectuer un suivi, quoi demander ensuite, et quand les objectifs ont été atteints.

La technologie sous-jacente utilisée est l’API en temps réel d’OpenAI, qui offre d’excellentes capacités vocales en temps réel avec des voix réalistes et une intelligence décisionnelle.

Cependant, l’équipe a rapidement découvert que l’utilisation d’un prompt monolithique pour diriger l’agent présentait des limites importantes :

« Si vous donnez simplement un prompt monolithique au modèle qui lui explique l’entretien et les questions qu’il pourrait poser, vous obtenez un résultat assez intéressant, mais il déraille souvent, pose des questions étranges, et il est difficile d’ajuster quand il doit faire un suivi. »

Solutions architecturales innovantes

Pour résoudre ces problèmes, l’équipe a développé plusieurs sous-composants :

  1. Sous-agent de sélection de questions : Un agent distinct fonctionnant en parallèle qui évalue la conversation et détermine quelle question poser ensuite

  2. Détecteur de dérive (ou « détecteur de digressions ») : Un système qui surveille si la conversation s’éloigne trop du sujet principal

« Les LLM sont tellement désireux de plaire qu’ils ont tendance à creuser toujours plus profondément. Peu importe ce que vous dites, ils répondent ‘Wow, votre travail est tellement intéressant, c’est fou, dites-m’en plus.’ Nous avons donc ajouté ce flux parallèle qui surveille la conversation et évalue si elle déraille. »

  1. Gestion de l’interface utilisateur : Un système pour suivre quelle question est posée et afficher les transcriptions

  2. Gestion des divergences de transcription : Solution aux problèmes liés aux différences entre ce que le modèle principal dit et ce que le modèle de transcription produit

« Les modèles OpenAI renvoient à la fois la réponse audio et une transcription de ce qui s’est passé jusqu’à présent. Le problème est que cette transcription est produite par un modèle séparé (Whisper) qui fait simplement de la reconnaissance vocale, et le modèle principal et le modèle de transcription peuvent être en désaccord. »

Défis d’évaluation

L’un des défis majeurs a été de déterminer comment évaluer la qualité des entretiens :

« Pour tous ces projets d’IA, il est absolument crucial de développer tôt dans le processus des évaluations solides, une façon automatisée de produire des métriques pour vous dire à quel point vous performez bien. Mais celui-ci est particulièrement difficile – c’est vocal, c’est ouvert, il n’y a pas vraiment de bonne source de vérité. »

Qu’est-ce qui fait un bon entretien ? Cette question s’est révélée extrêmement subjective :
– Est-ce un bon entretien parce qu’il a recueilli de bonnes informations ?
– Est-ce un bon entretien parce qu’il était rapide et n’a pas pris trop de temps ?
– Est-ce un bon entretien parce que les gens n’ont pas eu à se répéter ?

Ajoutez à cela la variabilité humaine : 250 personnalités différentes dans un même département peuvent avoir des préférences très différentes.

Solution d’évaluation innovante

L’équipe a développé un système pour créer des conversations synthétiques :

  1. Création de personas écrits représentant les types de personnes réelles qu’ils prévoient d’interviewer
  2. Utilisation d’un LLM séparé pour jouer le rôle d’un utilisateur fictif
  3. Conduite d’entretiens textuels où l’agent interroge cet utilisateur fictif
  4. Mesure de différents aspects de la conversation

Cependant, même cette approche a ses limites. Par exemple, lors des tests réels, un PDG s’est mis à jurer au milieu de l’entretien et a quitté la conversation (avant de revenir plus tard) – un scénario que les testeurs synthétiques n’avaient pas prévu.

Qu’est-ce qui fait d’un système un véritable « agent » ?

La discussion aborde également la définition d’un agent, un sujet actuellement très débattu dans l’industrie :

« Je pense que nous sommes d’accord pour dire que cet exemple est hautement ‘agentique’ d’une manière assez évidente. Nous avons tendance à considérer l’agentivité comme un spectre – il y a des choses moins agentiques et d’autres plus agentiques. »

Plusieurs attributs contribuent à l’agentivité d’un système :

  1. Caractère ouvert de la tâche : Plus la tâche est ouverte, plus le système est agentique
  2. Complexité : Les tâches complexes avec des objectifs larges nécessitent plus d’agentivité
  3. Autonomie d’action : Qui prend l’action finale ? Dans le cas de cet agent vocal, il n’y a personne qui supervise l’entretien en temps réel

Dans le contexte de l’entreprise, une définition simple mais efficace est proposée :
– L’IA est un outil qui aide à améliorer votre travail
– Les agents sont des systèmes qui font le travail à votre place

Cas d’utilisation prometteurs pour les agents vocaux

Les intervenants identifient plusieurs domaines où les agents vocaux présentent un potentiel significatif :

  1. Appels entrants : Particulièrement pour les 50% d’appels concernant des tâches simples, avec possibilité d’escalade pour les cas plus complexes

  2. Appels sortants B2B : Par exemple, appeler des compagnies d’assurance pour recueillir des informations

  3. Recherche en santé : Entretiens avec des médecins pour des études de marché, bien que les questions réglementaires doivent être considérées

  4. Inspections de sécurité : Par exemple, dans l’industrie ferroviaire où les inspecteurs doivent actuellement prendre des notes tout en interrogeant les conducteurs

  5. Support technique sur site : Techniciens qui ont besoin de consulter un manuel d’instructions pour une machine complexe et pourraient interagir par la voix plutôt que de feuilleter un manuel

Une pratique recommandée est de toujours informer la personne qu’elle parle à un agent IA, sans prétendre qu’il s’agit d’un humain.

Conclusion : un changement de paradigme

L’expérience de Super Intelligent avec leur agent vocal a été extrêmement positive. Ce n’est pas simplement une amélioration marginale par rapport aux alternatives – c’est une transformation fondamentale :

« Ce n’est pas une amélioration de 1 ou 2 fois par rapport à l’alternative, c’est massif… Il n’était pas possible auparavant d’interviewer chaque personne d’une entreprise sur ce qu’elle fait et de cartographier les opportunités d’agents. C’est maintenant théoriquement possible. Si tous le faisaient exactement au même moment, cela pourrait se produire en une demi-heure. »

Cette étude de cas illustre parfaitement comment les agents vocaux peuvent transformer des processus traditionnellement laborieux et coûteux en solutions évolutives et efficaces, ouvrant la voie à de nouvelles possibilités dans de nombreux secteurs d’activité.