OpenAI推出名为GPTBot的网页爬虫技术，以更透明方式搜集人工智能训练可用公开资料

臻智哥 • 2025年1月7日 16:10 • 达人投稿

为了解决从公开网页环境获取资料涉及隐私及著作权争议，OpenAI宣布推出名为GPTBot的网页爬虫技术，将以更透明方式搜集人工智能训练时所需资料。

OpenAI表示，GPTBot将以完整字符串及代币方式阐明其爬虫机器人身份，同时其所抓取公开网页资料仅用于改良未来人工智能模型，并且剔除抓取需要付费使用内容。

不过，如果网页经营维护者不希望被GPTBot撷取内容的话，例如网页可能存放大量涉及个人隐私等内容，仅需在网页架构中的robots.txt文件加入「GPTBot」描述，或是自订GPTBot可抓取内容，甚至OpenAI也提供直接通过限制IP存取范围方式禁止GPTBot抓取网页资料的方式，让网页经营维护者能避免内容被GPTBot抓取。

过去就有不少网页通过设置，让各家搜索引擎无法通过爬虫方式撷取网页资料，而在人工智能技术持续成长趋势之下，越来越多人工智能训练仰赖大量公开资料进行学习，因此也加深许多网页经营者担心内容被用于人工智能训练，进而产生有价资料受影响，或是影响隐私安全等问题，因此要求人工智能技术提供者必须以合理方式取用网页资料。

赞 (0)

0

达人投稿

BATSUGUN SATURN TRIBUTE Boosted

《BATSUGUN SATURN TRIBUTE Boosted 》是不仅有重现街机乐趣的原始版本模式，还有藉由平衡调整重新诞生的特别版本模式。《BATSUGUN》是使无数大作诞…

2025年1月17日
达人投稿

库克谈接班人会向董事会提供多个接任人选

近日，在一档播客中，当苹果CEO库克被问及「继任者是谁」问题，库克确认，其接班人仍来自内部，提供多个人选给董事会选择。据他说：「我不能透露名字，但我要说的是，我的任务是要确定几位…

2024年12月3日
达人投稿

人气策略桌游改编《荒野战纪》于Steam正式发售，踏上英雄的宿命之旅

由 Grumpy Owl Games 开发，2P Games 发行的策略 RPG 游戏《荒野战纪》（Untamed Tactics）今（29）日正式上架 Steam 发售，支持官方…

2024年12月19日
达人投稿

《NARUTO X BORUTO 火影忍者终极风暴羁绊》评测！简单操作让新手更有游戏体验！

动画《火影忍者》20周年的「终极风暴」系列新作《NARUTO X BORUTO 火影忍者终极风暴羁绊》即将上市，本作除了加入全新的原创剧情，而且还将从鸣人年少时期至博人时代的所有…

2024年12月4日
达人投稿

Patriot 推出 Viper Elite 5 RGB TUF Gaming Alliance DDR5 联名高性能内存

高性能玩家级内存模块、固态硬盘、闪存和游戏周边制造商博帝科技旗下电竞品牌Viper Gaming今日宣布即将推出首次与华硕游戏品牌TUF Gaming合作的Viper Elite …

2024年11月27日
达人投稿

经典RTS游戏《世纪帝国III：决定版》推出免费试玩版！每周轮替让玩家体验不同文明！

（原图来源：Tantalus Media, Forgotten Empires）由Tantalus Media、Forgotten Empires开发，Xbox Games St…

2025年1月8日

发表回复