En quête incessante de données d'entraînement de haute qualité pour ses grands modèles de langage, OpenAI aurait eu une utilisation surprenante de son outil Whisper de reconnaissance vocale. Selon le New York Times, il a servi à entraîner le modèle d'IA GPT-4 avec les transcriptions de l'audio de plus d'un million d'heures de vidéos YouTube.

Au-delà même des questions de droits d'auteur, une telle méthode de recueil de données est évidemment controversée et s'apparente à du scraping interdit par YouTube. Toutefois, elle aurait été perçue comme une sorte d'utilisation équitable (fair use) dans le contexte de l'entraînement de l'IA avec des vidéos.

Un point dérangeant est que le New York Times laisse entendre que Whisper aurait été spécifiquement conçu par OpenAI à cet effet et pour permettre d'accélérer le développement du modèle d'IA sur lequel s'appuie ChatGPT.

chatgpt

Google aurait fait plus ou moins pareil

Un porte-parole de Google indique au quotidien américain que l'entreprise n'avait pas connaissance de tels agissements d'OpenAI, mais le New York Times affirme que certains employés de Google étaient bel et bien au courant.

Il s'avère que Google aurait également cédé à la transcription de vidéos YouTube pour obtenir des données textuelles et destinées à l'entraînement de ses modèles d'IA. " Cette pratique pourrait avoir violé les droits d'auteur des créateurs de YouTube ", écrit le New York Times. D'où l'inaction supposée de Google qui aurait pu s'attirer des foudres.

Google souligne en tout cas que ses modèles d'IA sont entraînés sur certains contenus de YouTube, mais dans le cadre et en conformité d'accords conclus avec les créateurs de la plateforme.