Les différends liés aux droits d’auteur montrent que la formation de l’IA générative est devenue un véritable champ de mines juridique majeur.

Il serait « impossible » d’effectuer la formation de l’IA sans l’utilisation de matériel protégé par des droits d’auteur, selon OpenAI, alors que des interrogations croissantes se font jour sur la nature du contenu utilisé par les entreprises technologiques pour construire leurs grands modèles de langage (LLM). Alors que l’enthousiasme entourant l’IA générative s’est principalement concentré sur les capacités de la technologie au cours de l’année dernière, moins d’attention a été accordée aux types de contenu utilisés pour former ces modèles. Mais maintenant, cela change. Dans une soumission au comité des communications et du numérique de la Chambre des lords du Royaume-Uni en décembre, OpenAI a soutenu que, parce que le droit d’auteur couvre aujourd’hui pratiquement toutes sortes d’expressions humaines, des articles de blog aux photographies, en passant par les messages de forum, le code logiciel et les documents gouvernementaux, « il serait impossible de former les modèles d’IA les plus avancés d’aujourd’hui sans utiliser de matériel protégé par des droits d’auteur ». Même si les données de formation pour les LLM étaient limitées aux livres du domaine public et aux dessins créés il y a plus d’un siècle, cela pourrait constituer une « expérience intéressante », a déclaré OpenAI – mais cela ne fournirait pas les systèmes d’IA « qui répondent aux besoins des citoyens d’aujourd’hui ». OpenAI a déclaré qu’elle croyait que, légalement, la loi sur le droit d’auteur n’interdisait pas la formation, mais la société a également affirmé qu’elle propose une méthode facile pour empêcher son robot d’exploration web « GPTBot » d’accéder à un site, ainsi qu’une procédure de retrait pour les créateurs qui souhaitent exclure leurs images des ensembles de données d’entraînement futurs de DALL∙E.

Share the Post: