En réponse aux efforts juridiques visant à encadrer la collecte de données, OpenAI soutient que la création d’outils d’IA générative avancée (genAI) est inenvisageable sans l’utilisation de contenus protégés par des droits d’auteur pour les former.
Dans un rapport adressé au comité des communications et de la sélection numérique de la Chambre des lords du Royaume-Uni, OpenAI a déclaré que la formation de modèles linguistiques étendus de grande envergure (LLMs) tels que GPT-4, la technologie sous-jacente de ChatGPT, serait impossible sans l’utilisation de matériaux protégés par des droits d’auteur.
« Étant donné que le droit d’auteur couvre aujourd’hui pratiquement tout type d’expression humaine, y compris les billets de blog, les photographies, les messages de forum, les fragments de code logiciel et les documents gouvernementaux, il serait impossible de former les modèles d’IA performants d’aujourd’hui sans l’utilisation de matériaux protégés par des droits d’auteur », a déclaré OpenAI dans son rapport.
Les applications de genAI telles que ChatGPT ou l’outil de génération d’images Stable Diffusion sont construites à partir de vastes quantités de données – dont une grande partie est protégée par des lois sur les droits d’auteur – collectées sur Internet. Cela a suscité une réaction croissante de la part des éditeurs et des auteurs qui estiment que leur travail est utilisé sans crédit ni rémunération.
Les développeurs utilisent des ressources telles que Google et StackOverflow depuis des décennies, a déclaré Daniel Li, PDG de Plus Docs, une entreprise dont le logiciel utilise genAI pour concevoir, créer et modifier des présentations. ChatGPT, dit-il, permet simplement une plus grande facilité d’utilisation lors de la programmation.