Trois auteurs, Abdi Nazemian, Brian Keene et Stewart O’Nan, font partie d’un nouveau procès pour violation du droit d’auteur contre Nvidia, la dernière de ce genre à contester la dépendance des fournisseurs d’IA générative vis-à-vis de la doctrine sur l’utilisation équitable pour acquérir du matériel protégé par le droit d’auteur afin de former leurs grands modèles de langage.
Le procès, déposé en fin de semaine dernière, est similaire à d’autres poursuites contre les créateurs d’IA générative, car il allègue qu’ils ont utilisé du matériel protégé par le droit d’auteur – dans ce cas, des œuvres de fiction des auteurs mentionnés – comme données d’entraînement pour un LLM. Dans ce cas, le LLM est la série NeMo Megatron de Nvidia, qui, selon la plainte, utilise plusieurs ensembles de données connus pour contenir le matériel protégé par le droit d’auteur des auteurs et utilisés sans autorisation.
Plus précisément, le jeu de données « Books3 » semble être au cœur du problème. Il comprend 108 Go de données et est une copie du tracker privé Bibliotik – l’un des nombreux sites de « bibliothèques parallèles » qui occupent une place de longue date dans le monde du développement de LLM, car ils « hébergent et distribuent de vastes quantités de matériel protégé par le droit d’auteur sans licence », selon la plainte. Les auteurs réclament des dommages-intérêts monétaires et la « destruction … de toutes les copies [Nvidia] a faites ou utilisées en violation des droits exclusifs des demandeurs ».
Les auteurs sont représentés par le cabinet d’avocats Joseph Saveri, qui représente déjà d’autres groupes de professionnels de la création dans leurs poursuites contre les principaux fournisseurs d’IA. La comédienne et écrivaine Sarah Silverman fait partie d’une telle poursuite, déposée en juillet 2023, contre OpenAI et Meta, tandis qu’une autre action collective cite les auteurs Mona Awad et Paul Tremblay comme plaignants principaux. Comme les autres poursuites, l’affaire a été déposée devant le tribunal de district fédéral du district nord de la Californie. (Les affaires de droit d’auteur, qui sont exclusivement régies par le droit fédéral, sont toujours entendues par les tribunaux fédéraux).
Toutes ces poursuites reposent sur le concept d ‘ »utilisation équitable », qui est un ensemble d’exceptions à la loi sur le droit d’auteur aux États-Unis qui permettent, dans certains cas, la reproduction ou l’autre utilisation d’œuvres protégées par le droit d’auteur sans autorisation. Le test légal pour déterminer si une activité particulière est considérée comme une utilisation équitable, selon le Centre de droit d’auteur et d’utilisation équitable de Stanford, demande aux juges d’examiner quatre facteurs, à savoir le but et la nature de l’utilisation, la nature de l’œuvre protégée par le droit d’auteur, la quantité et le « caractère substantiel » de la partie de l’œuvre utilisée, et les effets de l’utilisation sur le marché du titulaire des droits d’auteur pour l’œuvre.