Les accords de publication de l’éditeur d’actualités d’OpenAI atteindraient apparemment un maximum de 5 millions de dollars par an.

Par Emilia David, une journaliste qui couvre l’intelligence artificielle. Avant de rejoindre The Verge, elle traitait de l’intersection entre la technologie, la finance et l’économie. Alors que les éditeurs de presse signent des accords avec des entreprises spécialisées en IA pour entraîner leurs modèles avec des articles d’actualité, le prix que des entreprises comme OpenAI sont prêtes à payer pour des informations protégées par le droit d’auteur commence à être révélé. The Information rapporte qu’OpenAI propose entre 1 million et 5 millions de dollars par an pour obtenir les droits de licence d’articles d’actualité protégés par le droit d’auteur afin de former ses modèles d’IA. C’est l’une des premières indications de la somme que les entreprises d’IA prévoient de payer pour du contenu sous licence. Cela fait écho à un récent rapport selon lequel Apple souhaite s’associer à des sociétés de médias pour utiliser leur contenu dans le cadre de l’entraînement de l’IA et offre au moins 50 millions de dollars sur plusieurs années pour des données. The Verge a contacté OpenAI pour obtenir des commentaires sur ces chiffres. Les chiffres semblent sensiblement similaires à certains accords de licence précédents n’impliquant pas l’IA. Lorsque Meta a lancé l’onglet Actualités de Facebook – depuis supprimé en Europe – il aurait proposé jusqu’à 3 millions de dollars par an pour obtenir les droits de licence d’articles d’actualité, de titres et d’aperçus. Cependant, il n’est pas clair si le montant total des paiements atteindrait les chiffres les plus élevés que nous ayons pu observer. Google a annoncé en 2020 qu’il investirait au total 1 milliard de dollars dans des partenariats avec des organismes de presse, par exemple. Sous la pression d’une nouvelle loi, Google a récemment accepté de verser aux éditeurs canadiens un total de 100 millions de dollars par an en échange de liens vers leurs articles. Les modèles de langage actuels, dans la mesure où nous connaissons la nature de leurs données d’entraînement, ont surtout été formés avec des informations provenant d’Internet. Alors que certains modèles d’IA ne divulguent pas la provenance de leurs données d’entraînement, des informations sont souvent disponibles concernant les jeux de données ou les robots d’exploration utilisés. Le prix des jeux de données d’entraînement varie en fonction du fournisseur, de la taille et du contenu d’un jeu de données. Certains fournisseurs de données, comme LAION, sont open source et complètement gratuits, et sont utilisés par des modèles tels que Stable Diffusion. Les développeurs d’IA mettent également souvent en place des robots d’exploration qui collectent des données sur Internet pour aider à entraîner leurs modèles. (Les développeurs d’IA doivent encore embaucher du personnel pour vérifier, étiqueter et parfois nettoyer les données d’entraînement, ce qui représente une augmentation significative des coûts d’exploitation.)

Share the Post: