Photo by Joshua Woroniecki on Unsplash
Cloudflareの研究者たちは、AIボットブロックにも関わらず、Perplexityがウェブサイトをスクレイピングしていると主張しています
インターネット基盤プロバイダーのCloudflareの研究者たちは、AIシステムのPerplexityが許可なくウェブサイトのコンテンツをスクレイピングしていると主張しています。これは、出版社がAIボットブロックを実装した場合でも発生します。
急いでいる?早見の事実はこちら:
- Cloudflareは、Perplexityが許可なくウェブサイトのコンテンツをスクレイピングしていると主張しています。
- 研究者たちは、出版社がAIボットブロックを実装しても、Perplexityの「ステルスクローリング」行為が確認されたと述べています。
- Perplexityの広報担当者は、Cloudflareのレポートを「宣伝のためのスタント」と呼びました。
月曜日にCloudflareによって共有されたレポートによれば、Perplexityはデフォルトのユーザーエージェントを使用してウェブサイトをクロールし、これらのブロックをバイパスするためにアイデンティティを切り替えています。この「ステルスクローリング」行動はCloudflareの専門家によって確認されました。
「Perplexityが繰り返しユーザーエージェントを修正し、ソースASNを変更してクローリング活動を隠し、robots.txtファイルを無視したり、時には取得すらしなかったりするという証拠が続々と見つかっています」と、研究者たちは書いています。
クローラーは透明性を保つこと、目的を明確にすること、そしてウェブサイトの設定を尊重することが期待されていますが、研究者たちはPerplexityがこれらの信頼原則に従っていないと主張しています。この結論は、顧客からの苦情をきっかけに調査を開始した結果、得られました。
「私たちは、robots.txtファイルでPerplexityのクローリング活動を許可しないと設定し、さらにWAFルールを作成してPerplexityの宣言したクローラー、PerplexityBotとPerplexity-Userを特にブロックした顧客から苦情を受け取りました」と研究者たちは書いています。「これらの顧客は、そのボットが成功裏にブロックされたのを確認したにもかかわらず、Perplexityがまだ彼らのコンテンツにアクセスできることを私たちに伝えてきました。」
Cloudflareの研究者たちは、これらの主張を確認するために、ブロックの再現と複数のテストを実施してクローラーの挙動を観察しました。あるテストでは、まだインデックスされていない新しいドメインを作成し、「敬意を持ったボット」をブロックするためのrobots.txtファイルを含めました。後に、彼らは制限されたドメインについての具体的な情報をPerplexityに問い合わせたところ、AI駆動の回答エンジンはまだウェブサイトについての詳細と正確な情報を提供していました。
「この結果は予想外でした。私たちは彼らのクローラーからこのデータが取得できないように、必要なすべての対策を講じていました」と研究者たちは付け加えました。
Perplexityの広報担当、ジェシー・ドワイヤーは、The Vergeへの声明の中で、この研究を「宣伝のためのスタント」と呼びました。ドワイヤーは、Cloudflareの報告書には「誤解」があると付け加えました。
Cloudflareは、出版社が不許可のAIクローリングを防ぐための複数のツールを開発しています。今年の3月には、Cloudflareは「AI Labyrinth」というツールをリリースし、不許可のクローラーをAIが生成するコンテンツの迷路に誘導する機能を提供しました。そして先月、出版社のコンテンツにアクセスするAIボットに対して料金を請求するシステム「Pay Per Crawl」を立ち上げました。