Le système de recommandation « For You » de TikTok, qui a fait de ByteDance, sa société mère, un leader en matière d’IA sur la scène mondiale. Mais cette même entreprise est maintenant si en retard dans la course à l’IA générative qu’elle utilise secrètement la technologie d’OpenAI pour développer son propre modèle de langage large, ou LLM.
Cette pratique est généralement considérée comme une erreur dans le monde de l’IA. C’est également en violation directe des conditions d’utilisation d’OpenAI, qui stipulent que les résultats de son modèle ne peuvent être utilisés « pour développer aucun modèle d’intelligence artificielle concurrent de nos produits et services ». Microsoft, avec lequel ByteDance achète son accès à OpenAI, a la même politique. Néanmoins, des documents internes de ByteDance partagés avec moi confirment que l’API d’OpenAI a été utilisée pour développer son LLM fondamental, appelé Projet Seed, à presque toutes les étapes du développement, y compris pour la formation et l’évaluation du modèle.
Les employés impliqués sont bien conscients des implications ; J’ai vu des conversations sur Lark, la plateforme de communication interne pour les employés de ByteDance, sur la façon de « blanchir » les preuves par « désensibilisation des données ». L’utilisation abusive est si répandue que les employés du Projet Seed atteignent régulièrement leur quota maximal d’accès à l’API.