Les accords de publication d’actualités d’OpenAI atteindraient apparemment un maximum de 5 millions de dollars par an.

Par Emilia David, une journaliste qui couvre l’intelligence artificielle. Avant de rejoindre The Verge, elle couvrait la convergence entre la technologie, la finance et l’économie. Alors que les éditeurs d’actualités concluent des accords avec des entreprises d’intelligence artificielle pour former leurs modèles avec des récits d’actualité, le prix que des entreprises comme OpenAI sont prêtes à payer pour les informations protégées par le droit d’auteur commence à être révélé. Selon The Information, OpenAI propose entre 1 million et 5 millions de dollars par an pour obtenir une licence sur des articles d’actualité protégés par le droit d’auteur afin de former ses modèles d’IA. C’est l’une des premières indications sur le montant que les entreprises d’IA envisagent de payer pour du matériel sous licence. Cela s’ajoute à un récent rapport indiquant qu’Apple cherche à nouer des partenariats avec des médias pour utiliser du contenu à des fins de formation en IA et offre au moins 50 millions de dollars sur plusieurs années pour obtenir des données. The Verge a contacté OpenAI pour obtenir un commentaire sur ces chiffres. Les chiffres semblent être globalement similaires à certains accords de licence non liés à l’IA conclus auparavant. Lorsque Meta a lancé l’onglet Actualités de Facebook – depuis abandonné en Europe -, il aurait proposé jusqu’à 3 millions de dollars par an pour obtenir une licence sur des récits d’actualité, des titres et des aperçus. Toutefois, il n’est pas clair si les paiements totaux atteindraient certains des montants plus importants que nous avons pu voir. Par exemple, en 2020, Google a annoncé qu’il investirait 1 milliard de dollars au total pour s’associer à des organisations d’actualités. Sous la pression d’une nouvelle loi, Google a également récemment accepté de verser 100 millions de dollars par an aux éditeurs canadiens en échange de liens vers leurs articles. Les grands modèles linguistiques d’aujourd’hui ont été principalement formés, pour autant que nous sachions ce qui se trouve dans leurs données d’entraînement, à l’aide d’informations provenant d’Internet. Bien que certains modèles d’IA ne divulguent pas la manière dont ils ont obtenu leurs données d’entraînement, il est souvent possible de savoir quels ensembles de données ou quels robots d’exploration web ont été utilisés. Le prix des ensembles de données d’entraînement varie en fonction du fournisseur, de la taille et du contenu de l’ensemble de données. Certains fournisseurs de données, comme LAION, sont open source et totalement gratuits, et sont utilisés par des modèles comme Stable Diffusion. Les développeurs d’IA mettent également souvent en place des robots d’exploration web qui collectent des données sur Internet pour aider à former leurs modèles. (Les développeurs d’IA doivent encore embaucher des personnes pour vérifier, étiqueter et parfois nettoyer les données d’entraînement, ce qui augmente considérablement les coûts d’exploitation.)

Share the Post: