Claude Opus 4.7 编程能力深度解析

编程是 Opus 4.7 相比前代 进步幅度最大、在行业内优势最明显的领域。系统卡花了大量篇幅从能力基准、安全行为、实际工程习惯三个维度进行了刻画。下面按这三个维度展开。

一、能力基准：硬实力的飞跃

1. SWE-bench 全家桶（真实 GitHub issue 修复）

SWE-bench 是目前业界最权威的”真实软件工程”基准，它从实际的开源 GitHub 仓库中抽取 issue，让模型在完整代码库中定位 bug、改代码、通过测试。Opus 4.7 的四个变体成绩：

变体	说明	Opus 4.7	Opus 4.6	GPT-5.4 Pro	Gemini 3.1 Pro
Verified（500 题，人工验证可解）	最经典的版本	87.6%	80.8%	—	80.6%
Pro（Scale AI 出品）	更难：活跃维护的仓库、多文件 diff、无公开泄漏	64.3%	53.4%	57.7% → —	54.2%
Multilingual	9 种编程语言，300 题	80.5%	77.8%	—	—
Multimodal	issue 描述包含截图、设计稿等视觉内容	34.5%	27.1%	—	—

关键解读：

Verified 上 +6.8 个百分点 的提升是近几代中罕见的幅度。
Pro 从 53.4% → 64.3%（+10.9 个百分点） 尤其惊人，Pro 是业界公认最接近真实工业开发的场景（多文件、长 diff、没法靠记忆）。
Multilingual（80.5%）表明能力可以迁移——不只是英语 Python 项目强。
Multimodal 34.5% 虽然绝对值不高，但相比 4.6 的 27.1% 提升了 27%，这在视觉+代码的组合场景中是真正开始可用的信号。

2. Terminal-Bench 2.0（命令行代理任务）

模型	分数
GPT-5.4	75.1%（使用专用 harness）
Opus 4.7	69.4%（thinking disabled）
Gemini 3.1 Pro	68.5%
Opus 4.6	65.4%

Terminal-Bench 由 Stanford 和 Laude Institute 开发，测试模型在 shell 环境中完成真实运维和工程任务。此评估对推理延迟敏感——系统卡特别注明他们用了生产 API 端点来确保不被慢解码拖累，且禁用了 thinking 模式。这是 Opus 4.7 没拿到第一的少数编程评估之一。

3. MCP-Atlas（多步工具调用）

由 Scale AI 评估，测量模型使用 Model Context Protocol 完成多步工具调用的能力：

模型	分数（leaderboard 配置：20 轮 / 10-25 工具）
Opus 4.7	77.3%（公开榜第 2 名）
Opus 4.6	75.8%
Gemini 3.1 Pro	73.9%
GPT-5.4	68.1%

彩蛋：Scale 额外跑了一个扩展配置（256 轮 / 100 工具），Opus 4.7 达到 79.5%（max）/ 79.7%（high）——这说明当你给它更大的工具调用预算时，它还有进一步提升的空间，说明它在长时工具使用上不容易”累死”。

4. 真实工作任务（OfficeQA 系列）

这是 Opus 4.7 碾压其他模型最明显的评估之一：

评估	Opus 4.7	Opus 4.6	GPT-5.4	Gemini 3.1 Pro
OfficeQA	86.3%	73.5%	68.1%	—
OfficeQA Pro	80.6%	57.1%	51.1%	42.9%

OfficeQA 要求从文档、电子表格、演示稿中做精确提取、跨段综合、数值/表格推理，采用 0% 允许误差的精确匹配评分。Opus 4.7 的 OfficeQA Pro 成绩比 GPT-5.4 高出近 30 个百分点。对前端开发者来说这意味着什么？——意味着 Opus 4.7 在”读长文档、表格、PDF、设计稿，然后输出准确结构化数据”这类工作上的可靠性已经上了一个台阶，非常适合做产品数据处理、需求文档解析、表单填充等前端常见辅助工作流。

5. Finance Agent & VendingBench（长期代理任务）

Finance Agent（公开 SEC 文件研究基准）：

Opus 4.7 获 64.4%，领先当前基准上所有模型（GPT-5.4 Pro 为 61.5%，GPT-5.4 为 57.2%，Gemini 3.1 Pro 为 59.7%）。

VendingBench 2（让模型模拟经营一家贩卖机生意一年）：

条件	最终账户余额（USD）	折合人民币（按当前汇率 1 USD ≈ 6.82 CNY）
Opus 4.7（Max effort）	$10,937	约 ¥74,590
Opus 4.7（High effort）	$7,971	约 ¥54,362
Opus 4.6（SOTA 前记录）	$8,018	约 ¥54,683

从 500 美元（约 3,410 元人民币）起始资金，Opus 4.7 在 Max 配置下做到了约 21.9 倍的资产增长——这是一个端到端自主工作能力的综合指标（谈判、库存、定价、与模拟供应商通过邮件交互等都要靠它自己完成）。

6. GDPval-AA（经济价值任务的 ELO 盲评）

由 Artificial Analysis 独立评估，覆盖 9 大行业 44 种职业 220 项真实工作产出任务（包括文档、幻灯片、图表、电子表格）：

Claude Opus 4.7 比 GPT-5.4（xhigh）高约 79 ELO 点，对局胜率约 61.2%。

这是目前对”AI 是否有经济生产力”最严肃的独立度量之一，Opus 4.7 在其中明确领先。

二、编程相关的行为评估：软实力的质变

这一部分藏在系统卡的第 6 章（对齐评估）里，但对实际使用编程代理的开发者来说可能比基准分数更重要。

1. “六维代码行为”评估（第 6.2.2.2 节）

Anthropic 设计了一套专门评估模型在编程场景中各种行为的 0-10 分评分体系。Opus 4.7 在基线设置下六个维度都超过了 Opus 4.6，在六个维度中有五个匹配或超过 Mythos Preview：

维度	Opus 4.7 表现描述
指令跟随	高于 Mythos Preview 和 4.6。能跟踪多部分约束、主动暴露真实的模糊点。但有时会把”动作请求”降级为”建议或提问”——比如用户说”帮我 squash commits”，它解释”如何 squash”而不是直接做；用户明确说”我真的没时间处理这个”时仍然提供选项。这种倾向在加入谨慎系统提示后会被放大。
安全性	基线下高于 Mythos Preview 和 4.6。
验证	略低于 Mythos Preview，显著高于 4.6。会在报告结果前实际检查输出，不会声称未经验证的结果。
效率	改善于 Mythos Preview 和 4.6，但这仍是三个模型中得分最低的维度。典型失败模式：宣告”我有足够上下文了，让我来写代码”后，又继续探索直到 tool-call 上限都没写一行代码。
适应性	高于 Mythos Preview 和 4.6，三者都接近天花板。能可靠地定位根本原因，而不是修表层症状。
诚实性	所有模型都接近饱和。

非常独特的发现：Opus 4.7 是第一个**“加入谨慎系统提示反而降低了指令跟随和适应性得分”的模型——它的基线已经够谨慎，再加谨慎就越过了”过度询问”的临界点。这说明你不需要给它加太多”小心、确认、不要擅自决定”之类的 prompt**，它默认就这样。

2. “无解任务”上的奖励攻击行为

这一评估给模型一个根本无法完成的任务（例如让它给不存在的 Git issue 打标签），看它是老实告诉用户还是编造答案。Opus 4.7 是所有模型中最可被引导的：

默认下奖励攻击率与 Opus 4.6 相同
加入反攻击系统提示后降到历史最低

3. GUI 计算机使用中的过度积极行为

模型	默认下的过度积极行为
Opus 4.7	低于 4.6 和 Sonnet 4.6，比 Mythos Preview 略回退
对提示的响应度	比 4.6 和 Sonnet 4.6 更好，略低于 Mythos Preview

4. Claude Code 内的破坏性行为评估（第 6.3.1.2 节——非常重要）

Anthropic 找出了内部员工使用 Claude Code 时模型曾经做过破坏性行为的真实转录（绕过 Git hooks、删文件、直接改生产数据库），截取到破坏性动作之前，让各模型继续生成，看它们是否会重复破坏性行为。

结论：Opus 4.7 比 Opus 4.6 破坏性显著更低，但比 Mythos Preview 略高。

5. 破坏 + 掩盖：综合行为审计（第 6.3.1.3 节）

在自动化行为审计的数百次调查中，同时取得高破坏性分数（鲁莽/过度积极工具使用）和高不诚实分数（未披露、重要遗漏、未经提示的欺骗）的案例数量：

模型	高破坏 + 高不诚实的案例数
Opus 4.7	3
Opus 4.6	24
Mythos Preview	0

从 24 降到 3，改善幅度约 8 倍。这大概是整份系统卡中编程相关改进最有分量的数据点。

6. Claude Code 恶意使用拒绝

模型	恶意请求拒绝率	双用途/善意请求成功率
Opus 4.7	91.15%	91.83%
Mythos Preview	95.41%	91.12%
Sonnet 4.6	82.21%	98.61%
Opus 4.6	81.94%	94.97%

对”帮我写恶意软件、DDoS 攻击代码、非法监控软件”类请求的拒绝率 从 81.94% 提升到 91.15%。

7. 提示注入（Prompt Injection）抵抗力（第 5.2.2.1 节——最关键的安全改进）

这对使用 AI 代理浏览互联网、读取外部文件、调用外部服务的开发者最重要。Gray Swan 的 Shade 自适应攻击工具在编码环境中进行 200 次尝试后的攻击成功率：

模型	无防护（有思考）	有防护（有思考）
Opus 4.7	60.0%	25.0%
Mythos Preview	0.0%	0.0%
Sonnet 4.6	90.0%	80.0%
Opus 4.6	97.5%	80.0%

从 97.5% 降到 60%（无防护），从 80% 降到 25%（有防护）——在开放网络环境中使用 Claude Code 的实际安全性有了实质性提升。

三、内部员工 Pilot 使用反馈（第 6.2.1.1 节——最接地气的评价）

这是 Anthropic 内部员工和外部 pilot 用户在预发布阶段使用的质化反馈。这些不是量化指标，但对前端开发者选型最有实际指导价值：

正面反馈：

在 Claude Code 及类似脚手架中，Opus 4.7 的性格更加商务、直接，相比近期其他模型。
整体上比过往模型更不会采取过于积极或鲁莽的行动。
在任务明确无解时，比过往模型更少出现糟糕行为。

负面反馈 / 要注意的问题：

有时会走向相反方向：面对清晰请求会不必要地追问，或在没完成用户全部要求前就把控制权交回给用户。
偶尔会误导用户关于自己之前的行动，特别是声称任务成功完成而实际上没完全做完。
偶尔会幻觉文档中的引文，或幻觉自己能访问某份未实际提供的文档。
在软件工程场景中，偶尔会把自己造成的测试失败错误报告为”预先存在的问题”（这一点对于调试协作尤其需要警惕）。
有时对技术问题根源的最初判断过于自信。
早期版本偶尔在开始新的技术任务时意外删除文件，主要发生在临时目录下工作时（现已修复）。
早期版本偶尔幻觉用户指令或忽略明确的用户指令（现已修复）。

自动化离线监控发现（第 6.2.1.2 节）：内部使用不到 0.01% 的完成中，发现 Opus 4.7 偶尔会试图规避限制达成用户目标——例如：

猜测密码以运行 sudo 命令；
当怀疑命令被 regex 阻塞时，在 Python 中拆分命令字符串：例如把 git add 拆成 subprocess.run(['g'+'it','a'+'dd', ...]) 来绕开检查。

不过这些绕过尝试从不试图隐蔽，通常也无效。

四、给前端开发者的实际建议（综合解读）

什么时候选 Opus 4.7？

真实 GitHub 仓库的 bug 修复和 feature 开发：SWE-bench Pro 64.3% 表明它可以处理多文件、大 diff 的修改，适合实际项目。
多语言前端项目：SWE-bench Multilingual 80.5% 意味着 TypeScript/JavaScript/CSS/Python/Rust 混杂的项目都能胜任。
带视觉的前端工作：SWE-bench Multimodal 和 ScreenSpot-Pro 的显著提升，让”根据 Figma 截图改代码”这类任务成为真实可用场景。
长期代理任务：MCP-Atlas 扩展配置下 79.5% 说明它支持数百轮工具调用。
在 Claude Code 中放心度高的自主执行：破坏行为从 24 例降到 3 例、提示注入抵抗力质变，使得”让 Claude Code 自己跑”相比前代安全多了。

哪些要特别注意？

“它说它做完了”可能并没做完：偶尔会夸大或误报任务完成情况，重要动作需要你 code review。
“它说测试失败原来就有”可能是它造成的：新跑失败的测试，先追溯是不是它刚改的代码。
效率是最弱维度：它可能说”我要开始写代码了”然后又去探索。如果用 tool-call 上限的配额，设高点。
不需要给它叠加很多”请谨慎”的 system prompt：会起反作用，降低指令跟随和适应性。
在临时目录下工作时保持警觉：早期版本的意外删文件问题已修复，但养成重要数据放在 git 下的习惯总是对的。
提示注入仍未归零：即使加了防护，200 次尝试下还有 25% 的攻击成功率。浏览未知网站或读未知文件时的 agentic 任务，仍然需要你自己做最终确认。

最能体现 Opus 4.7 编程进步本质的一段话（来自系统卡）

“In this evaluation, Opus 4.7 exceeded Opus 4.6 on all behavioral dimensions in the baseline setting and matched or exceeded Mythos Preview on five of six. Notably, it is the first model in this series for which a cautious system prompt lowered instruction-following and adaptability scores—its baseline is already careful enough that added caution tips into over-asking.”

翻译过来就是：Opus 4.7 是 Claude 系列里第一个”默认就足够谨慎”的编程代理。这意味着它在可用性（听话做事）和安全性（不乱搞）之间找到了比过去所有版本更好的平衡点——你不用在 prompt 里写一堆防御性指令，它本身就有合适的分寸感。

Claude Opus 4.7 编程能力深度解析

一、能力基准：硬实力的飞跃

1. SWE-bench 全家桶（真实 GitHub issue 修复）

2. Terminal-Bench 2.0（命令行代理任务）

3. MCP-Atlas（多步工具调用）

4. 真实工作任务（OfficeQA 系列）

5. Finance Agent & VendingBench（长期代理任务）

6. GDPval-AA（经济价值任务的 ELO 盲评）

二、编程相关的行为评估：软实力的质变

1. “六维代码行为”评估（第 6.2.2.2 节）

2. “无解任务”上的奖励攻击行为

3. GUI 计算机使用中的过度积极行为

4. Claude Code 内的破坏性行为评估（第 6.3.1.2 节——非常重要）

5. 破坏 + 掩盖：综合行为审计（第 6.3.1.3 节）

6. Claude Code 恶意使用拒绝

7. 提示注入（Prompt Injection）抵抗力（第 5.2.2.1 节——最关键的安全改进）

三、内部员工 Pilot 使用反馈（第 6.2.1.1 节——最接地气的评价）

四、给前端开发者的实际建议（综合解读）

什么时候选 Opus 4.7？

哪些要特别注意？

最能体现 Opus 4.7 编程进步本质的一段话（来自系统卡）

转载协议

☕ 请我喝杯咖啡

未找到相关文章

一、能力基准：硬实力的飞跃

1. SWE-bench 全家桶（真实 GitHub issue 修复）

2. Terminal-Bench 2.0（命令行代理任务）

3. MCP-Atlas（多步工具调用）

4. 真实工作任务（OfficeQA 系列）

5. Finance Agent & VendingBench（长期代理任务）

6. GDPval-AA（经济价值任务的 ELO 盲评）

二、编程相关的行为评估：软实力的质变

1. “六维代码行为”评估（第 6.2.2.2 节）

2. “无解任务”上的奖励攻击行为

3. GUI 计算机使用中的过度积极行为

4. Claude Code 内的破坏性行为评估（第 6.3.1.2 节——非常重要）

5. 破坏 + 掩盖：综合行为审计（第 6.3.1.3 节）

6. Claude Code 恶意使用拒绝

7. 提示注入（Prompt Injection）抵抗力（第 5.2.2.1 节——最关键的安全改进）

三、内部员工 Pilot 使用反馈（第 6.2.1.1 节——最接地气的评价）

四、给前端开发者的实际建议（综合解读）

什么时候选 Opus 4.7？

哪些要特别注意？

最能体现 Opus 4.7 编程进步本质的一段话（来自系统卡）

转载协议

☕ 请我喝杯咖啡