AI 公司被指无视 robot.txt 协议抓取内容

生成式AI训练需要大量的数据，这些数据不少都是从网络抓取，AI搜索Perplexity公司因此被媒体指责，Perplexity CEO指出robots.txt协议并非法律框架，出版商应该与 AI 开发公司建立新的关系

Updated At 25 Jun 2024 1 min read

By myfreax

生成式 AI 的开发需要极大量的数据用作训练，这些训练数据不少都是从网络抓取，也因此引起争议。虽然有一些业界标准可以表明拒绝抓取，但看来 AI 开发公司并没有遵从此规定。

据报导指，不少 AI 开发公司并没有遵守拒绝抓取内容的 robot.txt 协议，擅自从网站取得内容训练 AI。其中 AI 搜索新创公司 Perplexity 就因此被媒体指责。内容授权公司 TollBit 表示，他们分析这些出版商的网站抓取记录，发现一些代理有规律的抓取网站，「这意味着不仅是一家公司的 AI 代理选择无视 robots. txt 协议来取得网站内容」。

Business Insider 进一步爆料，OpenAI 和 Anthropic 等知名 AI 公司也存在类似行为。对此，Perplexity CEO Aravind Srinivas 在接受 Fast Company 采访时辩称，他们「并非故意忽视 Robot Exclusions Protocol」。

他解释，他们除了自家抓取工具外还使用第三方网络抓取服务，而发现的抓取工具就是其中之一。他认为情况很复杂，而且 robots.txt 协议并非法律框架，出版商应该与 AI 开发公司建立新的关系。