一项最新研究显示,尽管开发人员普遍认为 AI 编程工具能提高效率,但对于经验丰富的开源项目开发人员而言,使用这些工具反而可能导致工作时间拉长。
研究过程与结果
METR学院的研究人员于2025年初进行了一项随机对照试验,旨在评估先进AI工具对资深开源开发人员生产力的影响。 该研究追踪了 16 位经验丰富的开发人员,他们处理了来自自身复杂开源项目的 246 项实际任务。 开发人员预计 AI 会让他们的速度提升 24 %。 为了测量真实影响,每项任务被随机分配到两组之一:一组在没有生成式AI的情况下工作,另一组则使用AI助手,主要包括Cursor Pro以及Claude 3.5和Claude 3.7 Sonnet等领先模型。
研究人员发现,尽管开发人员一致预期能节省时间,数据却显示结果恰恰相反。 开发人员在使用AI时,平均完成真实任务的时间反而多出了19 %,即使在完成任务后,他们仍然相信AI让他们快了20%,尽管实际上却花费了更长的时间。

测量真实影响需要新方法
METR 学院指出,这些结果显示了测量生成式 AI 在实际世界中影响的必要性。 SWE-Bench 或 RE-Bench 等常见基准测试通常专注于孤立、无情境的任务和算法评估,这可能会扭曲实际情况。 相较之下,这类随机对照试验在真实环境中测试实际任务,提供了 AI 如何帮助——或阻碍——开发人员日常工作的更全面视图。
AI 工具的实际应用情境
研究结果尤其适用于那些成熟、复杂且具有高质量要求及众多隐式规则的开源项目。 在这些情况下,AI工具可能会导致额外的解释与控制工作。 然而,对于新项目、快速原型开发,以及处理不熟悉的框架时,情况则有所不同。 在这些情境中,AI工具可以发挥其优势,确实为开发人员提供支持。