Claude Opus 4.7 正式登场:视觉提升、长任务更稳,代码能力大幅跃进

距离上一次Claude Opus 4.6发表才过约两个月,Anthropic稍早再度推出新一代旗舰模型Claude Opus 4.7,AI 模型的进化速度真的是有够快啊! 而这次的升级重点主要集中在代码开发能力和视觉理解上,根据多项基准测试的结果,Opus 4.7在代码相关任务中的表现不仅大幅超越前一代,甚至在部分指标上还赢过竞争对手OpenAI最新的GPT-5.4。

不过跟之前没有公开释出的 Claude Mythos Preview 相比,Claude Mythos Preview 还是强很多。

Opus 4.7 这次的升级主要可以分成三大部分,首先是很多人关心的「代码开发能力」,当然是大幅提升。

Anthropic 表示,Opus 4.7 在处理复杂、长时间运行的代码任务时,稳定性和严谨度都有明显进步,特别是能自主完成的高难度任务。 它的指令遵循能力和自我验证机制也加强,简单来说,就是你交代它做的事,它更能照着做,而且做完还会自己检查一遍。

根据早期测试用户的反馈,有人用Opus 4.7自主从零开始建造一个完整的Rust文字转语音引擎,做完后还自动用语音识别器去比对结果是否正确,这种自己验收自己的能力是前一代做不到的。

再来是视觉能力的大幅强化。 Opus 4.7 支持的最大图片分辨率,从前一代的 1,568 像素,大幅提升到 2,576 像素,等于是超过 3 倍的视觉处理能力。 在阅读屏幕截图、理解图表、识别技术细节等场景下会更加准确。 对于需要用 AI 来操作电脑的用户来说,这是一个非常棒的改进。

第三个则是设计与文件处理方面的提升。 Anthropic 表示,Opus 4.7 在制作仪表板、简报、数据密集型界面等内容时,会做出更精致的美学选择,如:版面配置、配色、层次结构等都更有设计感。 文件推理方面,Opus 4.7的错误率比前一代降低了21%。

测试数据部分,SWE-bench Pro代码基准测试中(Agentic Coding),Opus 4.7拿到64.3%的分数,前一代Opus 4.6是53.4%,进步幅度超过10%。 而OpenAI的GPT-5.4的成绩是57.7%,Opus 4.7领先非常多。 不过,Anthropic 自家的 Mythos Preview 拿到了 77.8%,差距还是很明显:

Claude Opus 4.7 正式登场:视觉提升、长任务更稳,代码能力大幅跃进 - 榜哥

OSWorld-Verified的计算机操作任务测试中,Opus 4.7也是有些微进步,拿到78.0%,比GPT-5.4的75.0%和Opus 4.6的72.7%还高,更接近Mythos Preview的79.6%。

视觉推理CharXiv Reasoning部分,Opus 4.7在无工具辅助的情况下拿到82.1%,Opus 4.6只有69.1%,进步了13%,离Mythos Preview的86.1%也不算太远。 搭配工具使用后更达到 91.0%,Opus 4.6 则是 84.7%:

Claude Opus 4.7 正式登场:视觉提升、长任务更稳,代码能力大幅跃进 - 榜哥

Cursor表示,在代码开发工具 CursorBench 上,Opus 4.7 的分数为 70%,Opus 4.6 只有 58%,大幅提升不少。 在CodeRabbit的代码审查测试中,召回率(Recall)也提升超过10%。

日本电商平台Rakuten也分享测试结果,Opus 4.7能解决的任务数量是Opus 4.6的3倍。 Notion 表示在复杂工作流程中的成功率提升了 14%,工具呼叫错误也减少了:

Claude Opus 4.7 正式登场:视觉提升、长任务更稳,代码能力大幅跃进 - 榜哥

值得一提的是,Anthropic 这次刻意降低 Opus 4.7 的网络安全攻击能力,因此跟 Mythos Preview 相比,Opus 4.7 的资安攻击能力有被刻意削弱,并加入了自动化防护机制,会侦测并封锁涉及高风险网络安全操作的请求。

Opus 4.7 目前已经全面上线,包括 Claude 官方所有产品、Claude API、Amazon Bedrock、百度Cloud Vertex AI 以及 Microsoft Foundry。

Opus 4.7的API定价跟前一代完全一样:每百万输入Token为5美元、每百万输出Token为25美元,

(0)
摩榜哥摩榜哥

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注