Claude Opus 4.7 上線:更會做事了
Anthropic 推出 Claude Opus 4.7,強化長任務、視覺理解與程式工作流,但 Token 消耗也更高。

Anthropic 推出 Claude Opus 4.7。這次不是只拚聊天順不順,而是把長任務、視覺理解、工作流穩定性拉上來。官方很直白,這版就是要把事情做完。
講白了,這種升級對開發者更有感。你拿它改程式、讀截圖、整理報告,差一點點的準確率,就可能少掉一輪返工。對企業來說,這差的不是面子,是工時。
但代價也很現實。更高解析度輸入、更長輸出,Token 消耗都會上去。你如果是 API 使用者,帳單會先幫你記得這件事。
這次重點,不是更會聊
Anthropic 把 Opus 4.7 的主軸放在高階軟體工程、長時間任務、嚴格指令遵循。這代表模型不只會回你一句漂亮答案,還要能一路把步驟做完。

這種方向很合理。現在很多人已經不缺「會說」的模型,缺的是「能收尾」的模型。尤其是文件整理、跨檔案修改、研究摘要這類工作,半路跑掉真的很煩。
如果你有用過舊版 Claude,就知道它有時候前半段很穩,後半段開始飄。Opus 4.7 想解的,就是這種長鏈路任務的掉線問題。
- 官方發布頁主打長任務與代理式工作流
- SWE-bench Multilingual:80.5%
- GraphWalks BFS 1M:58.6%
- Vending-Bench 2:最終餘額 10,937 美元
看圖能力,這次補得很兇
這版另一個很實際的升級,是看圖更細。Anthropic 提到,Opus 4.7 支援長邊最高 2576 像素的圖像輸入,約 375 萬像素。對密集截圖、圖表、流程圖、介面原型圖,這很有用。
以前很多模型一碰高解析 UI,就會漏小字、漏按鈕、漏局部結構。這次比較像是把「看得到」變成「看得清」。對 Computer Use 場景,這差很多。
你如果做產品設計、QA、前端除錯,這種能力很實用。因為它不只是讀圖,而是要從圖裡抓出操作線索。
“The future is already here — it’s just not very evenly distributed.” — William Gibson
這句話放在 AI 很貼切。有人還在拿模型聊天,有人已經拿它讀截圖、找欄位、整理表格。Opus 4.7 讓這條線又往前挪了一點。
和競品比,差距開始變具體
只看單一版本,Opus 4.7 只是比 Opus 4.6 強一截。但把它放進同級比較,差距就很清楚了。Artificial Analysis 的 GDPval-AA 評估,涵蓋 44 種知識工作職業與 9 大產業,任務來自平均 14 年經驗的資深從業者。

在這份評估裡,Opus 4.7 的 Elo 是 1753。Opus 4.6 是 1619。GPT-5.4 是 1674。Gemini 3.1 Pro 是 1314。這組數字很直接,Opus 4.7 已經把不少只會寫漂亮話的模型甩開。
企業文件推理的差距更誇張。Databricks OfficeQA Pro 測的是接近 100 年的美國財政部公報,資料有 8.9 萬頁 PDF 和 2600 萬個數字。這種題目很吃耐心,也很吃上下文管理。
- GDPval-AA:Opus 4.7 1753,GPT-5.4 1674,Gemini 3.1 Pro 1314
- OfficeQA Pro:Opus 4.7 80.6%,Opus 4.6 57.1%
- Structural Biology:Opus 4.7 74.0%,Opus 4.6 30.9%
- SWE-bench Multimodal:Opus 4.7 34.5%,Opus 4.6 27.1%
成本和安全,還是不能跳過
Opus 4.7 不是白送的升級。Anthropic 明講了,高解析度圖像會吃更多 Token,新分詞器也可能讓同樣輸入變成更多 Token。高 Effort 模式下,輸出也會更長。
這對個人用戶是額度問題。對團隊和 API 用戶,就是成本問題。你如果一天跑幾百次工作流,差一點點 Token,月底就會很有感。
安全面也不能忽略。Anthropic 在發布前提過 Project Glasswing,談前沿模型在網安上的風險與收益。Opus 4.7 也帶有自動偵測與攔截高風險網安請求的護欄。
這代表它不是只往能力衝,也在收邊界。說真的,這比空喊口號實際多了。
這版會先影響誰?
先有感的,大概不是只拿來聊天的人,而是每天都在處理程式、表格、截圖、文件的人。因為它的價值不在文采,而在少跑偏、少返工、少人工盯著。
如果你的流程本來就會讓模型先出草稿,再人工校對,Opus 4.7 會比較像一個能穩定接手中段工作的助手。它不一定每次都驚艷,但它可能更少搞砸。
我覺得接下來真正值得看的是企業採用率。問題已經不是模型能不能寫,而是它能不能在你的流程裡,乖乖把事情寫完。
如果你是開發者,現在就該測兩件事:長上下文穩不穩,Token 成本高不高。這兩個答案,會直接決定你要不要把它放進正式流程。





