La fonction « For You » de TikTok, qui a séduit de nombreux utilisateurs, a permis à ByteDance, son entreprise mère, de se hisser au rang de leader mondial de l’IA. Cependant, cette même entreprise est maintenant si en retard dans la course à l’IA générative qu’elle utilise secrètement la technologie d’OpenAI pour développer son propre modèle de langage large (LLM), en concurrence directe avec celui d’OpenAI.
Cette pratique est généralement considérée comme une mauvaise manière dans le monde de l’IA. Elle est également en violation directe des conditions d’utilisation d’OpenAI, qui stipulent que les résultats de son modèle ne peuvent être utilisés « pour développer aucun modèle d’intelligence artificielle en concurrence avec nos produits et services ». Microsoft, par l’intermédiaire duquel ByteDance a accès à OpenAI, a la même politique. Néanmoins, des documents internes de ByteDance, partagés avec moi, confirment que l’API OpenAI a été utilisée à de nombreuses reprises pour développer son LLM de base, codé sous le nom de Project Seed, y compris pour former et évaluer le modèle.
Les employés impliqués en sont parfaitement conscients ; j’ai vu des conversations sur Lark, la plateforme de communication interne de ByteDance destinée aux employés, sur la manière de « blanchir » les preuves par une « désensibilisation des données ». L’utilisation abusive est si répandue que les employés de Project Seed atteignent régulièrement leur quota d’accès à l’API.