À partir d'un court échantillon audio de 15 secondes, OpenAI annonce que son modèle d'IA dénommé Voice Engine est capable de générer une voix naturelle qui ressemble beaucoup à la voix d'origine. Une reproduction vocale qui peut lire du texte avec les intonations idoines.

OpenAI imagine des applications en matière d'assistance à la lecture, d'accessibilité, de récupération de la voix pour des patients, ou encore de traduction de contenu. Ce n'est pas un hasard si Spotify expérimente une fonctionnalité Voice Translation pour les podcasts… en collaboration avec OpenAI.

spotify-voice-translation

À TechCrunch, OpenAI indique que le modèle d'IA a été entraîné avec un mélange de données sous licence et accessibles au public. Il est uniquement rendu disponible pour une dizaine de développeurs. L'approche d'OpenAI est particulièrement prudente.

Avec d'infinies précautions

" Nous reconnaissons que générer un discours qui ressemble à la voix des gens comporte de sérieux risques ", écrit OpenAI en faisant notamment allusion au contexte des élections présidentielles de cette année aux États-Unis.

" Nous travaillons avec des partenaires américains et internationaux issus du gouvernement, des médias, du divertissement, de l'éducation, de la société civile et au-delà, afin d'intégrer leurs commentaires au fur et à mesure que nous développons l'outil. "

Parmi les mesures prises, OpenAI souligne un watermark - une sorte de tatouage numérique - permettant de retracer l'origine de tout contenu audio généré par Voice Engine. Un consentement explicite et éclairé doit en outre être obtenu pour la reproduction d'une voix.

Un large déploiement n'est pas certain

Tant que le test avec Voice Engine est mené à petite échelle et avec des partenaires de confiance, un contrôle relativement strict sur son utilisation est du domaine du possible. Ce contrôle pourrait devenir plus complexe avec un déploiement à grande échelle qui n'est toutefois pas encore évoqué.

Dans un billet de blog, OpenAI publie quelques exemples d'une utilisation de Voice Engine. Il est difficile de faire la distinction entre l'audio de référence et le discours généré par l'IA.