Reddit fournira du contenu publié sur ses forums à Google, qui l’utilisera pour former et mettre à jour des chatbots IA dans un accord valant apparemment 60 millions de dollars par an, et qui pourrait – curieusement – rapporter gros au patron d’OpenAI, Sam Altman. Suivant les rumeurs de l’accord, le pacte Reddit-Google a été confirmé jeudi, et verra le géant Gmail payer pour accéder à l’API de données de Reddit, qui offre un accès en temps réel aux publications et commentaires créés par les utilisateurs du site de forum célèbre pour son caractère libre. Reddit a commencé à facturer l’accès à l’API l’année dernière – une tactique qui semble avoir porté ses fruits. À l’époque, on pensait que Reddit avait mis un paywall autour de son API non seulement pour contraindre les applications tierces à payer ou à partir, mais aussi pour profiter de la folie de la formation en IA. « Avec l’API de données de Reddit, Google aura désormais un accès efficace et structuré à des informations plus fraîches, ainsi qu’à des signaux améliorés qui nous aideront à mieux comprendre le contenu de Reddit et à l’afficher, à le former et à l’utiliser d’une manière précise et pertinente », a écrit Rajan Patel de Google, VP de l’ingénierie de la recherche Google, jeudi. Reddit est considéré par certains comme une excellente source de données d’entraînement pour les chatbots IA. Les conversations sur le site contiennent des millions d’exemples d’internautes écrivant en ton familier que les machines peuvent analyser pour apprendre à faire de même. D’autres grands développeurs de modèles de langage, comme OpenAI, par exemple, ont depuis des années récolté des liens sur Reddit, au moins, pour en extraire des informations.
« Les livres de Penguin Random House disent maintenant explicitement ‘non’ à la formation IA »
‘Écrit par Emma Roth, dont le portfolio couvre aussi bien les percées technologiques grand public, les dynamiques de l’industrie du