Le développeur de ChatGPT, OpenAI, a récemment reconnu la nécessité d’utiliser du matériel protégé par des droits d’auteur dans le développement d’outils d’IA tels que ChatGPT, rapporte The Telegraph. Selon eux, ces outils seraient « impossibles » sans cela. Cette déclaration a été faite dans le cadre d’une soumission à la commission des communications et de la sélection numérique de la Chambre des Lords du Royaume-Uni, qui mène une enquête sur les grands modèles linguistiques. Les modèles d’IA tels que ChatGPT et le générateur d’images DALL-E acquièrent leurs capacités grâce à des sessions d’entraînement alimentées en partie par de grandes quantités de contenu extrait d’Internet public sans l’autorisation des détenteurs de droits (bien que certains des contenus d’entraînement d’OpenAI soient sous licence). Ce genre de collecte de données gratuites fait partie d’une tradition bien établie dans la recherche universitaire en apprentissage automatique, mais en raison de la commercialisation récente des modèles d’IA basés sur l’apprentissage profond, cette pratique est désormais soumise à un examen minutieux. « Parce que le droit d’auteur couvre aujourd’hui pratiquement toutes sortes d’expressions humaines, y compris des articles de blog, des photographies, des messages de forum, des fragments de code logiciel et des documents gouvernementaux, il serait impossible d’entraîner les modèles d’IA les plus avancés d’aujourd’hui sans utiliser des matériaux protégés par des droits d’auteur », a écrit OpenAI dans le cadre de leur soumission à la Chambre des Lords. De plus, OpenAI écrit que limiter les données d’entraînement aux livres et aux dessins du domaine public « créés il y a plus d’un siècle » ne permettrait pas de fournir des systèmes d’IA répondant « aux besoins des citoyens d’aujourd’hui ». Cette déclaration fait suite à une plainte déposée le mois dernier par The New York Times contre OpenAI et Microsoft, un investisseur important d’OpenAI, pour une utilisation prétendument illégale du contenu du journal dans leurs produits. OpenAI a répondu à la plainte sur son site web lundi, affirmant que la plainte est infondée et réaffirmant son soutien au journalisme et à ses partenariats avec des organismes de presse.
« Les livres de Penguin Random House disent maintenant explicitement ‘non’ à la formation IA »
‘Écrit par Emma Roth, dont le portfolio couvre aussi bien les percées technologiques grand public, les dynamiques de l’industrie du