OpenAI va révéler des données d’entraînement secrètes dans une affaire de droit d’auteur – réservées aux yeux des avocats uniquement.

OpenAI a accepté de révéler les données utilisées pour entraîner ses modèles d’IA générative aux avocats poursuivant des revendications de droit d’auteur contre le développeur au nom de plusieurs auteurs. Les auteurs – parmi eux Paul Tremblay, Sarah Silverman, Michael Chabon, David Henry Hwang et Ta-Nehisi Coates – ont poursuivi OpenAI et ses sociétés affiliées l’année dernière, arguant que ses modèles d’IA ont été entraînés sur leurs livres et reproduisent leurs mots en violation de la loi sur le droit d’auteur des États-Unis et des règles de concurrence déloyale de la Californie. Les actions des écrivains ont été regroupées en une seule revendication [PDF]. OpenAI fait face à des allégations similaires d’autres plaignants, et plus tôt cette année, Anthropic a également été poursuivi par des auteurs mécontents. Le mardi, le juge magistrat américain Robert Illman a émis une ordonnance [PDF] spécifiant les protocoles et les conditions selon lesquels les avocats des auteurs auront accès aux données d’entraînement d’OpenAI. Les termes d’accès sont stricts, et considèrent l’ensemble de données d’entraînement comme l’équivalent de code source sensible, d’un processus commercial propriétaire, ou d’une formule secrète. Néanmoins, les modèles utilisés pour ChatGPT (GPT-3.5, GPT-4, etc.) ont probablement largement reposé sur des données publiquement accessibles largement connues, comme c’était le cas avec GPT-2 pour lequel une liste de domaines dont le contenu a été extrait est sur GitHub (The Register est sur la liste).

Share the Post: