Les accords d’éditeur de nouvelles d’OpenAI atteindraient apparemment jusqu’à 5 millions de dollars par an.

Par Emilia David, une journaliste spécialisée en IA. Avant de rejoindre The Verge, elle couvrait les intersections entre technologie, finance et économie. Alors que les éditeurs de presse concluent des accords avec des entreprises d’IA pour former leurs modèles avec des articles de presse, il est révélé combien des entreprises telles qu’OpenAI sont prêtes à payer pour obtenir des informations protégées par le droit d’auteur. The Information rapporte qu’OpenAI propose entre 1 million et 5 millions de dollars par an pour obtenir une licence d’articles de presse protégés par des droits d’auteur afin de former ses modèles d’IA. Il s’agit là des premières indications quant au montant que les entreprises d’IA prévoient de payer pour du matériel sous licence. Cela vient s’ajouter à un récent rapport indiquant qu’Apple cherche à s’associer avec des entreprises de médias pour utiliser leur contenu dans la formation de l’IA et offre au moins 50 millions de dollars sur une période de plusieurs années pour les données. The Verge a contacté OpenAI pour obtenir des commentaires sur ces chiffres. Les chiffres semblent être à peu près similaires à certains accords de licence non liés à l’IA conclus précédemment. Lors du lancement de l’onglet Actualités Facebook par Meta, depuis discontinué en Europe, il aurait été proposé jusqu’à 3 millions de dollars par an pour obtenir des licences d’articles de presse, de titres et de prévisualisations. Cependant, il n’est pas clair si les montants totaux correspondent à ceux que l’on a pu observer auparavant. Par exemple, Google a annoncé en 2020 qu’il investirait 1 milliard de dollars au total pour s’associer à des organismes de presse. Sous la pression d’une nouvelle loi, Google a également récemment accepté de verser aux éditeurs canadiens un total de 100 millions de dollars par an en échange de l’ajout de liens vers leurs articles. Les grands modèles de langage d’aujourd’hui ont été principalement formés à partir d’informations provenant d’Internet, du moins en ce qui concerne les données connues. Bien que certains modèles d’IA ne révèlent pas comment ils ont obtenu leurs données d’entraînement, des informations sont souvent disponibles sur les ensembles de données ou les robots d’indexation utilisés. Les prix des jeux de données d’entraînement varient en fonction du fournisseur, de la taille et du contenu d’un ensemble de données. Certains fournisseurs de données, comme LAION, sont gratuits et publiques, et sont utilisés par des modèles tels que Stable Diffusion. Les développeurs d’IA mettent également souvent en place des robots d’indexation pour collecter des données sur Internet et aider à former leurs modèles. (Les développeurs d’IA doivent toujours embaucher du personnel pour vérifier, taguer, et parfois nettoyer les données d’entraînement, ce qui représente une part importante des coûts d’exploitation.)

Share the Post: