OpenAI公布「官方爬虫」：GPT-5靠它训练，有需要可以屏蔽

1,958 0

不难想象，训练 GPT-4 需要海量的数据，这可不是付费购买能解决的问题。大概率，OpenAI 用了网络爬虫。很多用户指控 OpenAI，理由就是这种手段会侵犯用户的版权和隐私权。

刚刚，OpenAI 摊牌了：直接公布从整个互联网爬取数据的网络爬虫 ——GPTBot。

这些数据将被用来训练 GPT-4、GPT-5 等 AI 模型。不过 GPTBot 保证了，爬取内容绝对不包括违反隐私来源和需要付费的内容。

OpenAI 表示：「使用 GPTBot 爬取网络数据是为了改进 AI 模型的准确性、功能性和安全性。」

网站所有者可以根据需要允许和限制 GPTBot 爬取网站数据。接下来，我们来看下 GPTBot 究竟是如何工作的，顺便了解一下屏蔽方法。

首先，GPTBot 的用户代理字符串（User-Agent String）如下：

User agent token: GPTBot

Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

使用如下方法可以将 GPTBot 添加到网站的 robots.txt，禁止 GPTBot 访问网站：

User-agent: GPTBot

Disallow: /

还可以允许 GPTBot 访问网站特定部分的内容：

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

近期，OpenAI 因为未经明确批准而在网站数据上训练 GPT-4 等大型

语言模型

而遭到强烈反对。批评者们表示，即使内容可以公开访问，像 OpenAI 这样的公司也应该遵循训练协议。人们还担心，内容在输入 AI 系统时会被断章取义。

但即使遵循了 robots 协议，鉴于其并不是规范，而只是约定俗成的，所以并不能保证网站的隐私。

GPTBot 发布之后，这条动态已经在 Hacker News 上引发了一场争论，焦点是使用抓取的网络数据来训练

人工智能

系统的道德和合法性。

一部分人认为，GPTBot 的推出展示了使用公开数据研发 AI 模型的「灰色地带」：

「在训练完模型后还爬取数据，这真是太好了。根据推测，这些 header 不会影响他们已经抓取来训练 GPT 的任何页面。」

「现在，他们可以游说反抓取的监管并阻碍其他任何的追赶了。」

OpenAI公布「官方爬虫」：GPT-5靠它训练，有需要可以屏蔽

鉴于 GPTBot 会识别自己的身份，因此网站管理员可以通过 robots.txt 阻止它，但有些人认为允许它这样做没有任何好处，不像搜索引擎爬虫会带来流量。

一个值得关注的问题是，受版权保护的内容会在未注明出处的情况下被使用。ChatGPT 目前没有注明出处。

OpenAI公布「官方爬虫」：GPT-5靠它训练，有需要可以屏蔽

还有人质疑 GPTBot 如何处理网站上的授权图片、视频、音乐和其他媒体。如果这些媒体在模型训练中用到，则可能构成版权侵权。

另外一些专家认为，如果 AI 编写的内容被反馈到训练中，爬虫生成的数据可能会降低模型的性能。

相反，一些人认为 OpenAI 有权自由使用公共网络数据，并将其比作一个人从在线内容中学习。但也有人认为，如果 OpenAI 将网络数据货币化以获取商业利益，那么就应该分享利润。

总之，GPTBot 引发了关于所有权、合理使用和网络内容创建者激励机制的复杂争论。虽然遵循 robots.txt 是一个很好的步骤，但仍然缺乏透明度。

这或许是科技界下一个舆论焦点：随着 AI 产品的快速发展，「数据」到底该怎么用？

参考链接：

https://twitter.com/GPTDAOCN/status/1688704103554359296

https://searchengineland.com/gptbot-openais-new-web-crawler-430360

https://platform.openai.com/docs/gptbot

https://news.ycombinator.com/item?id=37030568

https://www.searchenginejournal.com/openai-launches-gptbot-how-to-restrict-access/493394/#close

AI人工智能

文章版权归作者所有，未经允许请勿转载。

像相机一样变焦、填充画面细节，还能自定义风格，AI作画神器Midjourney又更新了

AI人工智能

2年前

1,896

Meta官方的Prompt工程指南：Llama 2这样用更高效

AI人工智能

2年前

2,042

以大模型加速新药研发，成本降低70%：一家大厂的「云端」实战

AI人工智能

2年前

1,844

治愈续航焦虑，欧拉闪电猫有怎样的灵丹妙药？

AI人工智能

3年前

1,782

暂无评论

暂无评论...

OpenAI公布「官方爬虫」：GPT-5靠它训练，有需要可以屏蔽

类似 ChatGPT 的人工智能即将出现在主要科学搜索引擎中

2022玻尔兹曼奖公布：两位获奖者，Hopfield网络提出者在列

相关文章

像相机一样变焦、填充画面细节，还能自定义风格，AI作画神器Midjourney又更新了

Meta官方的Prompt工程指南：Llama 2这样用更高效

以大模型加速新药研发，成本降低70%：一家大厂的「云端」实战

治愈续航焦虑，欧拉闪电猫有怎样的灵丹妙药？

暂无评论

热门网址

OpenAI公布「官方爬虫」：GPT-5靠它训练，有需要可以屏蔽

类似 ChatGPT 的人工智能即将出现在主要科学搜索引擎中

2022玻尔兹曼奖公布：两位获奖者，Hopfield网络提出者在列

相关文章

像相机一样变焦、填充画面细节，还能自定义风格，AI作画神器Midjourney又更新了

Meta官方的Prompt工程指南：Llama 2这样用更高效

以大模型加速新药研发，成本降低70%：一家大厂的「云端」实战

治愈续航焦虑，欧拉闪电猫有怎样的灵丹妙药？

暂无评论

热门网址

标签云