Claude Opus 4.7 发布：更会干活了

OraCore Editors

Back to home

Model Releases/April 22, 2026·3 min read·OraCore Editors

Claude Opus 4.7 发布：更会干活了

Anthropic发布Claude Opus 4.7，长任务、视觉理解和代码工作流更强，但Token消耗也更高。

Claude Opus 4.7 Anthropic computer use vision agentic coding

Share LinkedIn

Anthropic 发布 Claude Opus 4.7，这次升级的重点很明确：复杂任务执行、高清视觉理解、长链路工作流稳定性。官方给出的定位也很直接，它面向的是那些真的要把活做完的场景，而不是只会把答案说得漂亮。

这次更新最值得注意的一点，是它把“模型会不会做事”摆到了“模型会不会聊天”前面。对于开发者、分析师、法务、研究人员来说，这种变化比单次跑分更有意义，因为它直接影响交付质量、返工次数和上下文管理成本。

如果你平时会让模型改代码、读截图、整理材料、做演示文稿，Opus 4.7 不是那种看一眼参数就能忽略的小版本。它的变化很像一次面向办公场景和代理式工作流的升级，代价也很现实：更高分辨率输入和更长输出，都会更快消耗 Token。

这次升级，重点不在“更会聊”

Anthropic 把 Opus 4.7 的核心能力放在高级软件工程、长时间任务执行和更严格的指令遵循上。简单说，模型不再只是回答问题，而是更像一个能跟着步骤做完任务的执行者。

官方 API 说明里，它被描述为当前最强的通用可用模型之一，尤其适合复杂推理和代理式编码。这个方向很清楚：大模型竞争的焦点，已经从“答案像不像人”转向“事情做没做成”。

从产品角度看，这意味着用户会更少遇到那种“前半段答得很好，后半段开始跑偏”的情况。对于长文档改写、跨文件整理、代码审查这类任务，稳定性比华丽措辞更重要。

Claude Opus 4.7 官方发布页强调复杂任务和长链路执行
SWE-bench Multilingual 上，Opus 4.7 得分 80.5%，Opus 4.6 为 77.8%
GraphWalks BFS 1M 场景中，Opus 4.7 从 41.2% 提升到 58.6%
Vending-Bench 2 中，Opus 4.7 最终余额 10,937 美元，Opus 4.6 为 8,018 美元

视觉能力这次补得很猛

这次最容易被普通用户感知到的变化，是它看图更细了。Anthropic 提到，Opus 4.7 支持长边最高 2576 像素的图像输入，约 375 万像素，明显高于此前版本。对密集截图、复杂图表、流程图、产品原型图来说，这种能力提升很实用。

过去很多模型在高分辨率界面里容易漏掉小字、按钮和局部结构。Opus 4.7 的变化在于，它更像是把“看得见”变成了“看得清”。这对 Computer Use 场景尤其重要，因为 UI 元素常常只占整张图很小一块面积。

在 ScreenSpot-Pro 上，Opus 4.7 的表现也很亮眼。低分辨率且不带工具时，它拿到 69.0%，而 Opus 4.6 是 57.7%。切到高分辨率后，Opus 4.7 不带工具就达到 79.5%，叠加工具调用后升到 87.6%。

“The future is already here — it’s just not very evenly distributed.” — William Gibson

这句话放在今天的模型升级上很贴切。对一部分人来说，AI 还只是聊天工具；对另一部分人来说，它已经开始接手截图分析、界面定位和文档整理。Opus 4.7 让这个分界线又往前推了一步。

和老对手比，差距开始变得具体

如果只看自家版本迭代，Opus 4.7 只是比 Opus 4.6 更强一点。但把它放到同类模型里，差距就更容易看清。Artificial Analysis 基于 OpenAI GDPval 数据集做的 GDPval-AA 评估，覆盖 44 种知识工作职业和 9 大行业，任务来自平均 14 年经验的资深从业者。

在这项评估里，Opus 4.7 的 Elo 分数是 1753，Opus 4.6 是 1619，GPT-5.4 是 1674，Gemini 3.1 Pro 是 1314。这个结果很直白：Opus 4.7 已经把不少“写得像样”但“做不完活”的模型甩在了后面。

在企业文档推理场景里，差距更夸张。Databricks 的 OfficeQA Pro 测的是近 100 年美国财政部公报，语料有 8.9 万页 PDF 和 2600 万个数字。Opus 4.7 在这里拿到 80.6%，Opus 4.6 是 57.1%，GPT-5.4 是 51.1%，Gemini 3.1 Pro 是 42.9%。

GDPval-AA：Opus 4.7 1753，GPT-5.4 1674，Gemini 3.1 Pro 1314
OfficeQA Pro：Opus 4.7 80.6%，Opus 4.6 57.1%，GPT-5.4 51.1%
Structural Biology：Opus 4.7 74.0%，Opus 4.6 30.9%
SWE-bench Multimodal：Opus 4.7 34.5%，Opus 4.6 27.1%

成本和安全，还是绕不开的话题

Opus 4.7 的提升不是白来的。Anthropic 明确提到，更高分辨率图像会消耗更多 Token，新的分词器也会让同样输入产生更多 Token，输出在高 Effort 模式下也会增加。对个人用户来说，这意味着额度可能更快见底；对团队和 API 用户来说，这就是实打实的成本变量。

另一个不能忽视的点是安全。Anthropic 在发布前一周公布了 Project Glasswing，讨论前沿模型在网络安全方向的风险和收益。Opus 4.7 是这套思路下第一个公开部署的模型，官方还提到它带有自动检测和拦截高风险网络安全请求的护栏。

安全评估里，它和 Opus 4.6 的整体画像接近，在诚实性和抵抗提示词注入方面更强，但部分细项也有小幅波动。Anthropic 的态度很明确：这不是一次把所有风险都抹平的发布，而是一次把能力往前推、同时继续收紧边界的发布。

对真正会付费的人来说，这些细节比宣传语更重要。因为你买到的不是“更聪明”，而是“更能干活，但也更吃资源”的模型。

结论：它会先改变谁的工作方式？

最先感受到 Opus 4.7 变化的人，大概率不是普通聊天用户，而是每天要处理代码、表格、截图、文档和长任务流的人。它的价值不在于每次回答都更有文采，而在于更少跑偏、更少返工、更少人工盯着它。

我更愿意把这次更新理解成一次工作方式的微调：如果你的流程本来就依赖模型做初稿、做校对、做资料整合，那么 Opus 4.7 会让这条链路更值得信赖；如果你只是偶尔问个问题，体感变化未必有那么强。

接下来值得观察的，不是它能不能继续刷高分，而是企业会不会真的把更多中间环节交给它。换句话说，问题已经不是“模型能不能写”，而是“它能不能在你的流程里少出错地写完”。

Claude Opus 4.7 发布：更会干活了

这次升级，重点不在“更会聊”

视觉能力这次补得很猛

和老对手比，差距开始变得具体

成本和安全，还是绕不开的话题

结论：它会先改变谁的工作方式？

Related Articles

Qwen3.6-35B-A3B opens a new open-source coding lane

Claude Design Launches: Anthropic's AI Design Tool Enters Beta

Geminiの最新アップデート総まとめ

Linux 7.0 lands with Rust and AI-finding bugs

OpenAI Limits GPT-5.4-Cyber to Trusted Firms

OpenAI launches GPT-5.4-Cyber for defense work