AIスタートアップのパープレキシティが、AIスクレイピングを拒否するウェブサイトからコンテンツを無許可でクロールとスクレイピングしていたと、インターネットインフラ企業クラウドフレアが発表しました。
クラウドフレアは月曜日に発表した調査結果で、パープレキシティがブロックを無視し、そのクロールとスクレイピング活動を隠していたとしています。クラウドフレアの研究者は、パープレキシティがウェブページのプリファレンスを回避するためにその正体を隠していたと述べています。
AI製品は大量のデータをインターネットから収集することに依存しており、AIスタートアップはしばしば許可なくテキスト、画像、動画をスクレイピングして製品を機能させています。最近では、ウェブサイト側がRobots.txtファイルを用いて検索エンジンやAI企業に対してインデックス化可能なページを指定するなどの対策を試みていますが、その成果はまちまちです。
クラウドフレアによると、パープレキシティはこれらのブロックを意図的に回避し、ボットの「ユーザーエージェント」を変更することでクロールを続けているということです。また、インターネット上の大規模なネットワークを識別するための番号であるASNも変更していたとしています。
この活動は数万のドメインと一日に数百万のリクエストにわたって観察されました。クラウドフレアは、機械学習とネットワークシグナルの組み合わせを用いてこのクローラーを特定したと述べています。
パープレキシティの広報担当者ジェシー・ドワイヤー氏は、クラウドフレアのブログ投稿を「営業トーク」として否定し、投稿にあるスクリーンショットは「コンテンツがアクセスされていないことを示している」と述べました。さらに、クラウドフレアのブログで名前の挙がったボットは「我々のものではない」と主張しました。
クラウドフレアは、顧客からパープレキシティがサイトをクロールとスクレイピングしているとの苦情を受けた後、この行動を確認したとしています。クラウドフレアは、テストを行い、パープレキシティがブロックを回避していることを確認したと述べています。
「パープレキシティは、宣言されたユーザーエージェントだけでなく、macOS上のGoogle Chromeを模倣する一般的なブラウザも使用していることが観察されました」とクラウドフレアは述べています。
クラウドフレアはまた、パープレキシティのボットを検証済みリストから削除し、新しい技術を追加してブロックする方針です。
クラウドフレアは最近、AIクローラーに対して公然と反対の姿勢を示しています。先月、クラウドフレアはウェブサイトの所有者や出版社がAIスクレイパーに料金を請求できるマーケットプレイスを立ち上げたと発表しました。クラウドフレアのCEOマシュー・プリンス氏は、AIが特に出版社のビジネスモデルを崩していると警鐘を鳴らしました。昨年、クラウドフレアはAIのトレーニング用にウェブサイトをスクレイピングするボットを防ぐ無料ツールを発表しました。
これは、パープレキシティが無許可でスクレイピングしたと非難された初めての事例ではありません。昨年、ワイアードなどの報道機関がパープレキシティがコンテンツを盗用していると主張しました。その数週間後、パープレキシティのCEOアラヴィンド・スリニヴァス氏は、TechCrunchのデビン・コルデウェイ氏とのインタビューでプラジャリズムの定義を即答できませんでした。