为了解决从公开网页环境获取资料涉及隐私及著作权争议,OpenAI宣布推出名为GPTBot的网页爬虫技术,将以更透明方式搜集人工智能训练时所需资料。

OpenAI表示,GPTBot将以完整字符串及代币方式阐明其爬虫机器人身份,同时其所抓取公开网页资料仅用于改良未来人工智能模型,并且剔除抓取需要付费使用内容。
不过,如果网页经营维护者不希望被GPTBot撷取内容的话,例如网页可能存放大量涉及个人隐私等内容,仅需在网页架构中的robots.txt文件加入「GPTBot」描述,或是自订GPTBot可抓取内容,甚至OpenAI也提供直接通过限制IP存取范围方式禁止GPTBot抓取网页资料的方式,让网页经营维护者能避免内容被GPTBot抓取。
过去就有不少网页通过设置,让各家搜索引擎无法通过爬虫方式撷取网页资料,而在人工智能技术持续成长趋势之下,越来越多人工智能训练仰赖大量公开资料进行学习,因此也加深许多网页经营者担心内容被用于人工智能训练,进而产生有价资料受影响,或是影响隐私安全等问题,因此要求人工智能技术提供者必须以合理方式取用网页资料。