« Amazon enquête sur la perplexité liée aux allégations d’abus de raclage. »

La division cloud d’Amazon a lancé une enquête sur Perplexity AI. La question est de savoir si la startup de recherche en intelligence artificielle viole les règles des services web d’Amazon en collectant des données sur des sites web qui ont tenté de l’en empêcher, a appris WIRED. Un porte-parole d’AWS, qui a parlé à WIRED sous condition d’anonymat, a confirmé l’enquête de l’entreprise sur Perplexity. WIRED avait précédemment constaté que la startup, soutenue par le fonds familial de Jeff Bezos et Nvidia, et récemment valorisée à 3 milliards de dollars, semble se baser sur du contenu provenant de sites web collectés en violation du protocole d’exclusion des robots, une norme web courante. Bien que le protocole d’exclusion des robots ne soit pas légalement contraignant, les conditions d’utilisation le sont généralement. Le protocole d’exclusion des robots est une norme web vieille de plusieurs décennies qui implique de placer un fichier texte (comme wired.com/robots.txt) sur un domaine pour indiquer quelles pages ne doivent pas être accessibles par des robots et des crawlers automatisés. Bien que les entreprises qui utilisent des collecteurs de données puissent choisir d’ignorer ce protocole, la plupart l’ont traditionnellement respecté. Le porte-parole d’Amazon a déclaré à WIRED que les clients d’AWS doivent respecter la norme des fichiers robots.txt lorsqu’ils collectent des données sur des sites web. « Les conditions d’utilisation d’AWS interdisent aux clients d’utiliser nos services à des fins illégales, et nos clients sont responsables de respecter nos conditions et toutes les lois applicables », a déclaré le porte-parole dans un communiqué. La surveillance des pratiques de Perplexity fait suite à un rapport du 11 juin de Forbes qui accusait la startup d’avoir volé au moins un de ses articles. Les enquêtes de WIRED ont confirmé cette pratique et ont trouvé d’autres preuves de collecte abusive et de plagiat par des systèmes liés au chatbot de recherche alimenté par l’IA de Perplexity. Les ingénieurs de Condé Nast, l’entreprise mère de WIRED, bloquent le collecteur de données de Perplexity sur tous leurs sites web à l’aide d’un fichier robots.txt. Cependant, WIRED a découvert que l’entreprise avait accès à un serveur utilisant une adresse IP non publiée – 44.221.181.252 – qui a visité les propriétés de Condé Nast au moins des centaines de fois au cours des trois derniers mois, apparemment pour collecter des données sur les sites web de Condé Nast.

Share the Post: