Model Releases/·3 min read·OraCore Editors

Claude Opus 4.7 发布:更会干活了

Anthropic发布Claude Opus 4.7,长任务、视觉理解和代码工作流更强,但Token消耗也更高。

Share LinkedIn
Claude Opus 4.7 发布:更会干活了

Anthropic 发布 Claude Opus 4.7,这次升级的重点很明确:复杂任务执行、高清视觉理解、长链路工作流稳定性。官方给出的定位也很直接,它面向的是那些真的要把活做完的场景,而不是只会把答案说得漂亮。

这次更新最值得注意的一点,是它把“模型会不会做事”摆到了“模型会不会聊天”前面。对于开发者、分析师、法务、研究人员来说,这种变化比单次跑分更有意义,因为它直接影响交付质量、返工次数和上下文管理成本。

如果你平时会让模型改代码、读截图、整理材料、做演示文稿,Opus 4.7 不是那种看一眼参数就能忽略的小版本。它的变化很像一次面向办公场景和代理式工作流的升级,代价也很现实:更高分辨率输入和更长输出,都会更快消耗 Token。

这次升级,重点不在“更会聊”

Anthropic 把 Opus 4.7 的核心能力放在高级软件工程、长时间任务执行和更严格的指令遵循上。简单说,模型不再只是回答问题,而是更像一个能跟着步骤做完任务的执行者。

Claude Opus 4.7 发布:更会干活了

官方 API 说明里,它被描述为当前最强的通用可用模型之一,尤其适合复杂推理和代理式编码。这个方向很清楚:大模型竞争的焦点,已经从“答案像不像人”转向“事情做没做成”。

从产品角度看,这意味着用户会更少遇到那种“前半段答得很好,后半段开始跑偏”的情况。对于长文档改写、跨文件整理、代码审查这类任务,稳定性比华丽措辞更重要。

  • Claude Opus 4.7 官方发布页强调复杂任务和长链路执行
  • SWE-bench Multilingual 上,Opus 4.7 得分 80.5%,Opus 4.6 为 77.8%
  • GraphWalks BFS 1M 场景中,Opus 4.7 从 41.2% 提升到 58.6%
  • Vending-Bench 2 中,Opus 4.7 最终余额 10,937 美元,Opus 4.6 为 8,018 美元

视觉能力这次补得很猛

这次最容易被普通用户感知到的变化,是它看图更细了。Anthropic 提到,Opus 4.7 支持长边最高 2576 像素的图像输入,约 375 万像素,明显高于此前版本。对密集截图、复杂图表、流程图、产品原型图来说,这种能力提升很实用。

过去很多模型在高分辨率界面里容易漏掉小字、按钮和局部结构。Opus 4.7 的变化在于,它更像是把“看得见”变成了“看得清”。这对 Computer Use 场景尤其重要,因为 UI 元素常常只占整张图很小一块面积。

在 ScreenSpot-Pro 上,Opus 4.7 的表现也很亮眼。低分辨率且不带工具时,它拿到 69.0%,而 Opus 4.6 是 57.7%。切到高分辨率后,Opus 4.7 不带工具就达到 79.5%,叠加工具调用后升到 87.6%。

“The future is already here — it’s just not very evenly distributed.” — William Gibson

这句话放在今天的模型升级上很贴切。对一部分人来说,AI 还只是聊天工具;对另一部分人来说,它已经开始接手截图分析、界面定位和文档整理。Opus 4.7 让这个分界线又往前推了一步。

和老对手比,差距开始变得具体

如果只看自家版本迭代,Opus 4.7 只是比 Opus 4.6 更强一点。但把它放到同类模型里,差距就更容易看清。Artificial Analysis 基于 OpenAI GDPval 数据集做的 GDPval-AA 评估,覆盖 44 种知识工作职业和 9 大行业,任务来自平均 14 年经验的资深从业者。

Claude Opus 4.7 发布:更会干活了

在这项评估里,Opus 4.7 的 Elo 分数是 1753,Opus 4.6 是 1619,GPT-5.4 是 1674,Gemini 3.1 Pro 是 1314。这个结果很直白:Opus 4.7 已经把不少“写得像样”但“做不完活”的模型甩在了后面。

在企业文档推理场景里,差距更夸张。Databricks 的 OfficeQA Pro 测的是近 100 年美国财政部公报,语料有 8.9 万页 PDF 和 2600 万个数字。Opus 4.7 在这里拿到 80.6%,Opus 4.6 是 57.1%,GPT-5.4 是 51.1%,Gemini 3.1 Pro 是 42.9%。

  • GDPval-AA:Opus 4.7 1753,GPT-5.4 1674,Gemini 3.1 Pro 1314
  • OfficeQA Pro:Opus 4.7 80.6%,Opus 4.6 57.1%,GPT-5.4 51.1%
  • Structural Biology:Opus 4.7 74.0%,Opus 4.6 30.9%
  • SWE-bench Multimodal:Opus 4.7 34.5%,Opus 4.6 27.1%

成本和安全,还是绕不开的话题

Opus 4.7 的提升不是白来的。Anthropic 明确提到,更高分辨率图像会消耗更多 Token,新的分词器也会让同样输入产生更多 Token,输出在高 Effort 模式下也会增加。对个人用户来说,这意味着额度可能更快见底;对团队和 API 用户来说,这就是实打实的成本变量。

另一个不能忽视的点是安全。Anthropic 在发布前一周公布了 Project Glasswing,讨论前沿模型在网络安全方向的风险和收益。Opus 4.7 是这套思路下第一个公开部署的模型,官方还提到它带有自动检测和拦截高风险网络安全请求的护栏。

安全评估里,它和 Opus 4.6 的整体画像接近,在诚实性和抵抗提示词注入方面更强,但部分细项也有小幅波动。Anthropic 的态度很明确:这不是一次把所有风险都抹平的发布,而是一次把能力往前推、同时继续收紧边界的发布。

对真正会付费的人来说,这些细节比宣传语更重要。因为你买到的不是“更聪明”,而是“更能干活,但也更吃资源”的模型。

结论:它会先改变谁的工作方式?

最先感受到 Opus 4.7 变化的人,大概率不是普通聊天用户,而是每天要处理代码、表格、截图、文档和长任务流的人。它的价值不在于每次回答都更有文采,而在于更少跑偏、更少返工、更少人工盯着它。

我更愿意把这次更新理解成一次工作方式的微调:如果你的流程本来就依赖模型做初稿、做校对、做资料整合,那么 Opus 4.7 会让这条链路更值得信赖;如果你只是偶尔问个问题,体感变化未必有那么强。

接下来值得观察的,不是它能不能继续刷高分,而是企业会不会真的把更多中间环节交给它。换句话说,问题已经不是“模型能不能写”,而是“它能不能在你的流程里少出错地写完”。