OpenAI dévoile sa nouvelle génération d’IA audio : TTS, transcription vocale, agents intégrés et plus encore !
OpenAI vient d’annoncer une série de mises à jour majeures pour ses modèles audio. Plongeons dans leur diffusion en direct pour analyser ces nouvelles fonctionnalités et leurs implications.
L’interface vocale : l’avenir de l’IA
Lors de cette présentation, OpenAI a d’emblée mis l’accent sur l’importance de la voix comme interface naturelle pour l’IA :
« Aujourd’hui est vraiment passionnant, nous allons au-delà du texte pour développer des agents vocaux. La voix est une interface humaine très naturelle, et nous allons permettre aux développeurs et aux entreprises de construire des agents vocaux. »
Cette vision rejoint parfaitement la réalité du marché actuel. La voix reste une interface sous-exploitée malgré les capacités impressionnantes des modèles de conversion texte-parole, parole-texte et parole-parole. Les développeurs devraient davantage envisager des interfaces privilégiant la voix comme point d’entrée principal.
Trois nouveaux modèles et des outils innovants
L’équipe d’OpenAI, représentée par Shen de l’équipe de recherche, Yaroslav, ingénieur de l’équipe API, et Jeff Harris de l’équipe produit API Pro, a présenté trois nouveaux modèles et plusieurs outils conçus pour faciliter la création d’expériences vocales riches et humaines :
- Deux nouveaux modèles de reconnaissance vocale (speech-to-text) surpassant le précédent modèle Whisper dans toutes les langues testées
- Un nouveau modèle de synthèse vocale (text-to-speech) permettant de contrôler non seulement ce que dit le modèle, mais aussi comment il le dit
- Une mise à jour majeure du SDK d’agents facilitant la transformation d’agents textuels en agents vocaux
Qu’est-ce qu’un agent vocal et comment le construire ?
Jeff Harris a expliqué le concept d’agent vocal :
« Nous considérons les agents en général comme des systèmes d’IA qui peuvent agir indépendamment au nom d’un utilisateur ou d’un développeur. Un agent textuel peut être une boîte de dialogue sur un site web où vous posez des questions sur le catalogue de produits ou vos commandes récentes. Vous pouvez faire la même chose avec la voix en appelant et en parlant à une IA vocale. »
Parmi les applications potentielles, il a mentionné l’apprentissage des langues, où un agent vocal peut servir de coach de prononciation, créer un plan de leçon ou simuler des conversations dans la langue étudiée.
Deux approches pour les modèles vocaux
Il existe deux approches principales pour les modèles vocaux :
1. L’approche avancée : modèles parole-à-parole (speech-to-speech)
Cette méthode plus récente et sophistiquée utilise un modèle unique qui prend la parole en entrée et génère directement de la parole en sortie, sans transcription intermédiaire. C’est l’approche utilisée par le mode vocal avancé de ChatGPT, qui comprend mieux l’intonation, l’humeur et l’emphase dans la voix de l’utilisateur, et peut les refléter dans sa réponse.
2. L’approche traditionnelle : chaîne de modèles
Cette méthode plus conventionnelle suit un processus en trois étapes :
– Conversion de la parole en texte (speech-to-text)
– Traitement du texte par l’IA
– Conversion du texte en parole (text-to-speech)
Bien que modulaire, cette approche présente deux inconvénients majeurs :
– Une latence plus élevée due à l’utilisation de plusieurs modèles et aux conversions successives
– Une perte significative d’information émotionnelle (ton, emphase, etc.) lors de la conversion de la parole en texte
Malgré ces limitations, les développeurs apprécient cette approche pour trois raisons principales :
– Sa modularité permet de combiner différents composants
– Elle offre une fiabilité élevée
– Elle permet de réutiliser facilement le travail effectué sur des agents textuels existants
Nouveaux modèles de reconnaissance vocale (speech-to-text)
OpenAI a présenté deux nouveaux modèles de reconnaissance vocale :
– GPT-4 Transcribe
– GPT-4 Mini Transcribe
Ces modèles sont basés sur leur « large speech model » et ont été entraînés sur des billions de tokens audio. Le modèle Mini a été optimisé pour être plus rapide et plus efficace tout en conservant d’excellentes capacités de transcription.
Les performances sont mesurées par le taux d’erreur par mot (WER – Word Error Rate), qui représente le pourcentage de mots incorrectement transcrits. Les deux nouveaux modèles surpassent les générations précédentes (Whisper large V2 et V3) dans toutes les langues testées, avec des améliorations particulièrement impressionnantes pour certaines langues.
Les prix sont compétitifs :
– GPT-4 Transcribe : 0,6 centime par minute (même prix que Whisper)
– GPT-4 Mini Transcribe : 0,3 centime par minute
Cependant, il convient de noter que pour de nombreux cas d’utilisation, les modèles open-source de reconnaissance vocale, qui sont pratiquement gratuits et peuvent fonctionner localement, pourraient être suffisants malgré une légère différence de taux d’erreur.
Améliorations des API de reconnaissance vocale
OpenAI a également enrichi ses API speech-to-text avec plusieurs fonctionnalités :
- Traitement en continu : les développeurs peuvent envoyer un flux audio continu au modèle et recevoir un flux de texte en réponse, permettant des expériences plus rapides
- Suppression du bruit : les modèles ne sont pas perturbés par les sons d’arrière-plan
- Détecteur d’activité vocale sémantique : segmente automatiquement l’audio en fonction du moment où le modèle estime que l’utilisateur a fini de parler
Ces fonctionnalités sont disponibles à la fois dans les API standard et dans l’API temps réel, offrant aux développeurs des solutions aux problèmes complexes de traitement vocal.
Nouveau modèle de synthèse vocale : GPT-4 Mini TTS
OpenAI a également présenté un nouveau modèle de synthèse vocale, GPT-4 Mini TTS, accessible via une plateforme de démonstration nommée open.fm.
La grande innovation de ce modèle est la possibilité de donner des instructions spécifiques sur la façon dont le texte doit être prononcé. Lors de la démonstration, l’équipe a montré comment le même texte pouvait être lu avec différentes tonalités (par exemple, comme un scientifique fou ou de manière enthousiaste) simplement en modifiant les instructions.
Cette fonctionnalité permet d’ajouter une couche émotionnelle à la synthèse vocale, bien que la conversion de la parole humaine en texte avec préservation de l’émotion reste un défi majeur.
Intégration du SDK d’agents pour les interfaces vocales
L’une des annonces les plus importantes concerne la mise à jour du SDK d’agents d’OpenAI, permettant de convertir facilement un agent textuel existant en agent vocal. Cette intégration simplifie considérablement le développement d’interfaces vocales pour les IA.
Pour faciliter le débogage et l’analyse des agents vocaux, OpenAI a également mis à jour son interface de traçage pour prendre en charge l’audio. Cette interface permet de visualiser les différents événements d’une conversation, d’écouter les enregistrements audio et d’examiner les métadonnées associées.
Conclusion : la voix comme interface du futur
Ces mises à jour confirment que la voix est véritablement l’interface du futur pour l’intelligence artificielle. OpenAI offre désormais aux développeurs tous les outils nécessaires pour intégrer facilement des capacités vocales avancées dans leurs applications d’IA.
La flexibilité reste de mise, avec la possibilité de proposer à la fois des interfaces textuelles et vocales selon les besoins des utilisateurs. Avec ces nouvelles fonctionnalités, OpenAI continue de repousser les limites de l’interaction homme-machine, rendant l’IA toujours plus naturelle et accessible.
Pour explorer ces nouvelles fonctionnalités par vous-même, vous pouvez visiter open.fm et tester les différentes voix et capacités offertes par ces nouveaux modèles.
Featured image by Richard Horvath on Unsplash

