« Les différends sur les droits d’auteur montrent que la formation de l’IA générative est devenue un véritable champ de mines juridique majeur. »

Il serait « impossible » de mener une formation à l’IA sans utiliser du matériel protégé par le droit d’auteur, selon OpenAI, alors que les questions se multiplient au sujet de la nature du contenu utilisé par les entreprises technologiques pour construire leurs grands modèles de langage (LLM). Alors que l’excitation entourant l’IA générative s’est principalement focalisée sur les capacités de la technologie au cours de l’année dernière, moins d’attention a été accordée aux types de contenu utilisés pour former ces modèles. Mais les choses sont en train de changer. Dans une déclaration adressée au Comité des communications et du numérique de la Chambre des Lords britannique en décembre, OpenAI a affirmé que, étant donné que le droit d’auteur couvre aujourd’hui pratiquement tous les types d’expressions humaines, des articles de blog aux photographies, en passant par les publications sur les forums, le code logiciel et les documents gouvernementaux, il serait impossible de former les modèles d’IA actuels sans utiliser du matériel protégé par le droit d’auteur. Même si les données de formation pour les LLM étaient limitées aux livres du domaine public et aux dessins créés il y a plus d’un siècle, cela pourrait constituer une « expérience intéressante », selon OpenAI – mais cela ne fournirait pas les systèmes d’IA « adaptés aux besoins des citoyens d’aujourd’hui ». OpenAI a déclaré qu’elle était convaincue que, d’un point de vue légal, la loi sur le droit d’auteur n’interdisait pas la formation, mais la société a aussi affirmé fournir un moyen simple d’empêcher son robot d’exploration web « GPTBot » d’accéder à un site, ainsi qu’un processus de désinscription pour les créateurs qui souhaitent exclure leurs images des jeux de données de formation futurs de DALL∙E.

Share the Post: