别太相信 AI 搜索引擎,研究发现 76% 时间里都「错得很有自信」

笔者重复过很多次,对于 AI 给你的答案,务必要自己再查证过确保无误,AI 到底有多不准确呢? 国外Tow数字新闻中心(Tow Center for Digital Journalism)的工作人员对目前最流行的8种AI搜索引擎进行全面测试,结果相当令人惊讶。

最佳 AI 搜索引擎总整理 2024! 这些是目前最好用的几款 - 榜哥

别太相信 AI 搜索引擎,研究发现 76% 时间里都「错得很有自信」

首先我们先了解一下 Tow Center 对这些 AI 搜索引擎测试的方式。 该就中的 8 款聊天机器人包含具备实时搜索功能(可实时连接网络)的免费与高级模型:

  • ChatGPT Search
  • Perplexity
  • Perplexity Pro
  • DeepSeek Search
  • Microsoft Copilot
  • Grok-2 Search
  • Grok-3 Search
  • 百度Gemini

这项研究主要是关于 AI 聊天机器人准确检索和引用新闻内容的能力。 此外,Tow Center 还想了解聊天机器人在无法执行请求的指令时会有什么行为。 为了测试,Tow Center选择了来自10个不同出版者的10篇文章。 然后,从每篇文章中选择摘录并提供给每个聊天机器人。 然后,要求聊天机器人做一些简单的事情,例如识别文章的标题、原始出版者、发表日期和 URL 等,如下图的例子。

别太相信 AI 搜索引擎,研究发现 76% 时间里都「错得很有自信」 - 榜哥

接着,该单位将聊天机器人的响应分为 6 个类别:

  • 正确:所有三个属性都是正确的。
  • 不完全正确:某些属性是正确的,但答案缺少信息。
  • 部分错误:某些属性是正确的,而其他属性是错误的。
  • 完全错误: 所有 3 个属性均不正确和/或缺失。
  • 未提供:未提供任何信息。
  • 爬网程序已阻止:发布者在其 robots.txt 中不允许使用聊天机器人的爬网程序。
别太相信 AI 搜索引擎,研究发现 76% 时间里都「错得很有自信」 - 榜哥

正如下面你会看到的,AI 搜索引擎经常出错,但可以说更大的问题在于它们是如何出错。 无论准确性如何,聊天机器人几乎总是充满自信地做出回应。 研究发现,他们很少使用限定词或承认无法执行指令。 下图显示了回答的准确性以及给出的自信度,如拟所见,几乎所有的回复都处于 「自信」 区块,但有很多红色。

别太相信 AI 搜索引擎,研究发现 76% 时间里都「错得很有自信」 - 榜哥

例如,Grok-3所传回的回答中,高达76%「错得很自信」或「部分错误」,别忘了,Grok-3是一款高阶型号,每月收费40美元,它的性能比免费的Grok-2型号差。 Perplexity Pro 与 Perplexity 也可以看到同样的情况为。 高端付费模型(在Perplexity Pro的情况下每月20美元)不一定会提高准确性,但它似乎确实对错误的回答表现得更有自信。

别太相信 AI 搜索引擎,研究发现 76% 时间里都「错得很有自信」 - 榜哥

有些 AI 搜索引擎与出版者有签署协议,允许访问特定的出版物。 你会认为聊天机器人在准确识别这些出版物中的信息方面非常出色,但事实并非总是如此。 下图显示了 8 个聊天机器人和与他们有许可协议的出版商。 这里提醒大家,机器人被要求确定文章的标题、原始出版商、发布日期和 URL。 大多数聊天机器人都能够以很高的准确性做到这一点,但有些失败了。 例如,ChatGPT Search 搜寻与它有合作关系的出版物《San Francisco Chronicle》打交道时,90%的时间都是错误的。

别太相信 AI 搜索引擎,研究发现 76% 时间里都「错得很有自信」 - 榜哥

另一方面,有些出版物阻止了 AI 搜索引擎访问其内容,然而,研究表明在实践中并不总是有效果。 一些搜索引擎似乎不尊重出版商在这部分的决定。 例如,Perplexity 能够准确识别《国家地理》的所有 10 条被付费墙阻挡并阻止了爬虫的引文。 更多的聊天机器人不仅访问了被阻止的网站,而且还从中提供了不准确的信息。 Grok 和 DeepSeek 未显示在图形中,因为它们没有披露爬网程序。

别太相信 AI 搜索引擎,研究发现 76% 时间里都「错得很有自信」 - 榜哥

话说回来,上面林林总总一大堆数字对用户代表什么呢? 很明显,仅仅依靠 AI 搜索引擎来提高准确性是一个相当冒险的做法,即使是有签署许可协议的高阶模型也可以十分有自信地吐给用户错误信息,这清楚地提醒大家,批判性思维和交叉验证在 AI 时代依然是最基本的网络使用技能。 如果你感兴趣,可以查看 Columbia Journalism Review 上的完整研究,了解更多你从来没有想过的发现。

(0)
摩榜哥摩榜哥

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注