Un guide de l’affiche sur qui vend vos données pour former l’IA.

Si vous avez déjà posté quelque chose sur Internet, il est probable que vos données aient déjà été extraites, collectées et utilisées pour former des systèmes d’IA tels que ceux qui alimentent ChatGPT, Midjourney et Sora. L’intelligence artificielle générative est conçue pour réussir en tant que généraliste, et apprendre à le faire, a déclaré OpenAI, nécessite des données à « l’échelle de l’Internet » pour s’entraîner. Vous n’avez probablement pas besoin que je vous dise ce qui se passe lorsque les entreprises utilisent des données publiques extraites – souvent sans la permission de ceux qui les ont créées – à partir d’articles de presse, de livres et de projets créatifs pour enseigner à des outils d’IA comment, par exemple, générer des articles de presse, des livres et des projets créatifs. Le New York Times poursuit actuellement OpenAI pour avoir prétendument utilisé ses archives étendues sans autorisation pour entraîner des chatbots (dans un récent dépôt, OpenAI a accusé le Times d’avoir « embauché quelqu’un pour pirater » ChatGPT pour prouver que le chatbot volait leur contenu). Getty Images a poursuivi Stable Diffusion pour violation de droit d’auteur. D’autres poursuites en provenance d’auteurs et de créateurs, mécontents de découvrir que leurs œuvres ont été utilisées pour former des modèles d’IA, ont connu des revers devant les tribunaux. D’autres entreprises ont décidé de conclure des accords. The Associated Press a accordé une licence pour une partie de ses archives à OpenAI. Shutterstock, la base de données de photos stockées, a signé un accord de six ans avec OpenAI pour fournir des données d’entraînement, comprenant l’accès à ses bases de données de photos, vidéos et musique. Les manières dont les systèmes d’IA utilisent le travail de journalistes, musiciens et photographes ont des implications assez conséquentes pour notre écosystème d’information et culturel et pour les personnes travaillant dans les secteurs que les entreprises d’IA semblent déterminées à développer des outils pour remplacer. Le besoin de collecter de plus en plus de données d’entraînement avec le moins de tracas possible signifie que n’importe qui qui poste en ligne – que ce soit un compte Tumblr de fan, une présence active sur Reddit ou un blog personnel – pourrait voir l’accès à son contenu vendu par les plates-formes qui l’hébergent à l’une de ces grandes sociétés d’IA.

Share the Post: