Les accords de publication de l’éditeur de news d’OpenAI atteindraient apparemment un maximum de 5 millions de dollars par an.

Par Emilia David, une journaliste qui couvre l’IA. Avant de rejoindre The Verge, elle s’intéressait à l’intersection entre la technologie, la finance et l’économie. Alors que les éditeurs de presse concluent des accords avec des entreprises d’IA pour former leurs modèles avec des articles de presse, le prix que des entreprises comme OpenAI sont prêtes à payer pour obtenir des informations protégées par des droits d’auteur est révélé. The Information rapporte qu’OpenAI propose de verser entre 1 million et 5 millions de dollars par an pour obtenir une licence permettant d’utiliser des articles de presse protégés par des droits d’auteur afin de former ses modèles d’IA. Il s’agit là d’une des premières indications quant au montant que les entreprises d’IA prévoient de payer pour du matériel sous licence. Cette information vient s’ajouter à un récent rapport indiquant qu’Apple cherche à nouer des partenariats avec des sociétés de médias afin d’utiliser leur contenu pour la formation de ses IA, et est prête à verser au moins 50 millions de dollars sur plusieurs années pour obtenir ces données. The Verge a contacté OpenAI pour recueillir leurs commentaires sur ces chiffres. Ces chiffres semblent être approximativement similaires à certains accords de licence antérieurs ne portant pas sur l’IA. Lorsque Meta a lancé l’onglet Actualités de Facebook (qui a été abandonné en Europe), l’entreprise aurait proposé jusqu’à 3 millions de dollars par an pour obtenir des licences pour des articles de presse, des titres et des aperçus. Cependant, il n’est pas clair si les montants totaux atteindraient ceux des plus grosses sommes que nous avons pu observer. Par exemple, Google a annoncé en 2020 qu’il investirait 1 milliard de dollars au total pour collaborer avec des organismes d’information. Sous la pression d’une nouvelle loi, Google a également récemment convenu de verser aux éditeurs canadiens un total de 100 millions de dollars par an en échange de la création de liens avec leurs articles. Les modèles linguistiques actuels, dans la mesure où nous savons ce qu’ils contiennent dans leurs données d’apprentissage, ont principalement été entraînés avec des informations provenant d’Internet. Bien que certains modèles d’IA ne divulguent pas la manière dont leurs données d’apprentissage ont été obtenues, des informations sont souvent disponibles sur les ensembles de données ou les robots d’exploration du Web qui ont été utilisés. Le prix des ensembles de données d’apprentissage varie en fonction du fournisseur, de leur taille et de leur contenu. Certains fournisseurs de données, comme LAION, sont open source et totalement gratuits, et sont utilisés par des modèles tels que Stable Diffusion. Les développeurs d’IA mettent également souvent en place des robots d’exploration qui collectent des données sur Internet pour aider à former leurs modèles. (Les développeurs d’IA doivent néanmoins embaucher des personnes pour vérifier, étiqueter et parfois nettoyer les données d’apprentissage, ce qui augmente considérablement les coûts opérationnels.)

Share the Post: