Les accords de l’éditeur de nouvelles d’OpenAI atteignent apparemment un maximum de 5 millions de dollars par an.

Par Emilia David, une journaliste qui couvre l’intelligence artificielle. Avant de rejoindre The Verge, elle traitait de l’intersection entre la technologie, la finance et l’économie. Alors que les éditeurs de presse concluent des accords avec des entreprises d’IA pour former leurs modèles à partir d’articles d’actualité, le prix que des entreprises comme OpenAI sont prêtes à payer pour des informations protégées par le droit d’auteur se révèle au grand jour. Selon The Information, OpenAI propose entre 1 million et 5 millions de dollars par an pour obtenir une licence d’utilisation d’articles d’actualité protégés par le droit d’auteur, afin de former ses modèles d’IA. C’est l’une des premières indications quant au montant que les entreprises d’IA envisagent de payer pour l’utilisation de contenus protégés par le droit d’auteur. Cette information vient s’ajouter à un rapport récent selon lequel Apple cherche à nouer des partenariats avec des entreprises de médias afin d’utiliser leurs contenus pour former des modèles d’IA, en proposant au moins 50 millions de dollars sur plusieurs années en échange de données. The Verge a contacté OpenAI pour obtenir un commentaire sur ces chiffres. Ils semblent être à peu près similaires à certains accords de licence non liés à l’IA conclus précédemment. Lorsque Meta a lancé l’onglet Actualités de Facebook – qui a depuis été interrompu en Europe – il aurait proposé jusqu’à 3 millions de dollars par an pour obtenir une licence d’utilisation d’articles d’actualité, de titres et d’aperçus. Cependant, il n’est pas clair si les versements totaux équivalent à certains des gros chiffres que nous avons vus. En 2020, Google a annoncé qu’il investirait au total 1 milliard de dollars pour conclure des partenariats avec des organes de presse. Sous la pression d’une nouvelle loi, Google a également récemment accepté de verser un total de 100 millions de dollars chaque année aux éditeurs canadiens en échange de liens vers leurs articles. Les grands modèles de langage utilisés aujourd’hui ont principalement été entraînés sur des informations provenant d’Internet, du moins dans la mesure où nous savons quelles données ont été utilisées pour leur formation. Bien que certains modèles d’IA ne révèlent pas comment ils obtiennent leurs données d’entraînement, il est souvent possible de savoir quels ensembles de données ou « web crawlers » ont été utilisés. Les prix des ensembles de données d’entraînement varient en fonction du fournisseur, de la taille et du contenu de l’ensemble de données. Certains fournisseurs de données, comme LAION, sont en open source et entièrement gratuits, et sont utilisés par des modèles tels que Stable Diffusion. Les développeurs d’IA utilisent également souvent des « web crawlers » pour collecter des données sur Internet et aider à entraîner leurs modèles. (Les développeurs d’IA doivent toujours embaucher des personnes pour vérifier, marquer et parfois nettoyer les données d’entraînement, ce qui augmente considérablement les coûts d’exploitation.)

Share the Post: