Apple AI 团队研究论文表示：推理模型其实并没有在「思考」

近日 Apple 发表一篇名为《The Illusion of Thinking（思考的错觉）》的学术论文，该论文针对多款当前最先进的大型语言模型（LLM），例如Anthropic的Claude 3.7 Sonnet、OpenAI的「o1」与「o3」、DeepSeek的DeepSeek-R1、以及百度的 Gemini 等，进行了推论能力测试。 Apple认为这些大模型的推理表现，远不如宣传所言，甚至并没有在思考（Reasoning）。

Apple AI 团队研究论文表示：推理模型其实并没有在「思考」

为了了解 LRM（大型推理模型）的根本能力、其性能如何随规模扩展以及潜在局限性，Apple的研究团队进行了一项系统性的调查，通过可控的解谜环境，精确地纵问题的组合复杂度，同时保持逻辑结构的一致性，从而揭示LRMs「思考」的真实面貌。通过对LRMs及其对应的标准LLMs在同等推论计算预算下的比较，研究团队发现了三种截然不同的性能区间，这在传统数学基准测试中难以观察到：

低复杂度任务区间： 在处理简单问题时，出人意料的是，标准LLMs展现出更高的效率和准确性，甚至优于LRMs。这表明在某些情况下，额外的「思维」过程可能反而造成冗余，降低了效率。
中等复杂度任务区间： 当问题的复杂度适度增加时，LRMs的优势开始显现，其额外的思维过程确实能带来性能上的提升，与标准LLMs的性能差距也随之扩大。
高复杂度任务区间： 然而，一旦问题的复杂度超越特定阈值，两种模型——无论是LRMs还是标准LLMs——的性能都会遭遇「彻底崩溃」，准确率趋近于零。这预示着当前推理方法在面对极端复杂问题时，存在根本性的局限。

特别值得注意的是，在接近崩溃点时，LRMs的推理努力（以推论时所消耗的token数量衡量）反而会「反直觉地」下降，即便它们仍有充足的token预算。这意味着LRMs在处理极高复杂度问题时，似乎选择了「放弃思考」，而非投入更多计算资源以寻求解决方案，这也揭示了其思维能力与问题复杂度之间存在的根本性扩展限制。

为什么数学基准测试无法充分评估模型能力？

研究指出，当前评估LRMs在既有数学基准测试（如MATH-500、AIME24、AIME25）上的性能增强，究竟应归因于接触了更多数学数据、分配了显著更多的推论计算资源给思维token，还是真正由于其基于强化学习（RL）的训练而发展出的推理能力，目前尚不明确。

先前的研究和本次实验结果都证实，在MATH-500数据集上，LRMs的通过率（pass@k）与其非思维型LLMs在相同推论token预算下表现相当。然而，研究团队观察到，这种性能差距在AIME24基准测试上有所扩大，并在AIME25上进一步加剧。这种现象带来了解释上的挑战：这可能是因为日益增长的复杂度需要更精密的推理过程，从而凸显了思维模型在复杂问题上的真正优势; 也可能是因为较新的基准测试（尤其是AIME25）数据污染较少。有趣的是，人类在AIME25上的表现实际上高于AIME24，这暗示AIME25的实际复杂度可能较低。然而，模型在AIME25上的表现却劣于AIME24，这潜在表明前沿LRMs在训练过程中可能存在数据污染。

鉴于这些难以解释的观察结果，以及数学基准测试无法实现对问题复杂度的精确控制，研究团队转向了可控的「解谜环境」进行更精确和系统化的实验。

可控解谜环境：揭示思考的真相

为了更严谨地理解LRMs的推理行为，研究团队采用了四种可控的解谜环境进行实验：

河内塔（Tower of Hanoi）： 经典的递回谜题，通过调整碟片数量控制复杂度。
跳棋（Checkers Jumping）： 一维排列的跳棋游戏，通过调整棋子数量控制复杂度。
渡河问题（River Crossing）： 一种约束满足规划谜题，通过调整参与者对数控制复杂度。
积木世界（Blocks World）： 积木堆叠谜题，通过调整积木数量控制复杂度。

这些谜题环境具有以下关键优势：

精细控制复杂度： 允许研究人员通过调整谜题元素（如碟片、棋子、积木或参与者数量）来系统地改变问题复杂度，同时保持核心逻辑不变。
避免数据污染： 不同于既有基准测试，这些谜题设计旨在避免数据污染，确保模型必须依赖真正的推理能力而非记忆。
强调算法推理： 谜题仅需明确提供的规则，强调算法推理，而非过度依赖广泛的知识。
支持模拟器评估： 能够进行严格、基于模拟器的评估，实现对解决方案的精确检查和详细的失败分析。

通过这些环境，研究团队不仅能评估最终答案，还能深入分析模型内部生成的「思维痕迹」（reasoning traces），即模型在得出答案前的详细思考过程。

推理模型的崩溃模式与思维动态

实验结果明确指出，所有接受评估的LRMs（包括03-mini、DeepSeek-R1、DeepSeek-R1-Qwen-32B和Claude-3.7-Sonnet-thinking）都表现出相似的模式：随着问题复杂度的增加，准确率逐渐下降，最终在超越模型特定的复杂度阈值后彻底崩溃（准确率为零）。奇妙的是，在接近准确率崩溃点时，LRMs所分配的思维token数量：也就是它们的推理努力会反直觉地减少。即使在仍有充足推论预算的情况下，这些模型也未能利用额外的计算资源来进行更深入的思考。这种行为强烈暗示了当前推理模型在思维能力上存在着与问题复杂度相关的根本性扩展限制。

通过对Claude-3.7-Sonnet-Thinking模型在不同谜题中的思维痕迹进行精细分析，研究团队进一步揭示了模型「思维」过程中的复杂模式：

低复杂度下的过度思考： 对于简单问题，模型往往在思维过程的早期就找到了正确的解决方案，但随后却继续探索不正确的替代方案，导致计算资源的浪费。不正确解决方案的分布在思维过程的后期更为集中。
中等复杂度下的先错后对： 随着问题复杂度的适度增加，这种趋势发生逆转：模型倾向于首先探索不正确的解决方案，而在思维过程的后期才逐渐找到正确的解决方案。此时，不正确解决方案的分布更为靠前。
高复杂度下的彻底错误： 对于高复杂度问题，模型完全无法在思维过程中产生任何正确的解决方案，陷入彻底崩溃。

这项分析也显示，对于较简单的问题，解决方案的准确性会随着思考的进行而下降或波动，这进一步印证了过度思考现象的存在。然而，对于更复杂的问题，解决方案的准确性会随着思考的进行而提高，直到达到某个阈值。超越这个阈值，即进入「崩溃模式」后，准确率则降为零。这表明LRMs的自我修正能力虽然有其价值，但也存在根本性的效率低下和明显的扩展局限性。

研究还揭示了LRMs在执行精确问题解决步骤方面的局限性：

提供算法却无助于性能： 即使直接在提示中提供了解决河内塔问题的明确算法，模型在执行这些既定步骤时的性能也并未显著提高，崩溃点大致保持不变。这令人费解，因为找到并设计解决方案理应比单纯执行给定算法需要更多的计算量。这进一步突显了推理模型在验证和遵循逻辑步骤解决问题方面的局限性。
谜题间的表现不一致性： Claude 3.7 Sonnet Thinking模型在不同谜题之间展现出极为不同的行为。在河内塔问题中，即使N=10，模型在解决方案中首次出现错误也通常发生在较晚的步骤（例如第100步左右）。然而，在渡河问题中，模型却仅能产生最多4个有效步骤就宣告失败。值得注意的是，模型能够以近乎完美的准确率解决需要31步的N=5河内塔问题，却无法解决仅需11步的N=3渡河问题。这可能表明在网络数据中，N>2的渡河问题实例极为稀缺，导致LRMs在训练期间未能频繁遇到或记忆这些案例。