Model Releases/·5 min read·OraCore Editors

Claude Opus 4.7 上線:更會做事了

Anthropic 推出 Claude Opus 4.7,強化長任務、視覺理解與程式工作流,但 Token 消耗也更高。

Share LinkedIn
Claude Opus 4.7 上線:更會做事了

Anthropic 推出 Claude Opus 4.7。這次不是只拚聊天順不順,而是把長任務、視覺理解、工作流穩定性拉上來。官方很直白,這版就是要把事情做完。

講白了,這種升級對開發者更有感。你拿它改程式、讀截圖、整理報告,差一點點的準確率,就可能少掉一輪返工。對企業來說,這差的不是面子,是工時。

但代價也很現實。更高解析度輸入、更長輸出,Token 消耗都會上去。你如果是 API 使用者,帳單會先幫你記得這件事。

這次重點,不是更會聊

Anthropic 把 Opus 4.7 的主軸放在高階軟體工程、長時間任務、嚴格指令遵循。這代表模型不只會回你一句漂亮答案,還要能一路把步驟做完。

Claude Opus 4.7 上線:更會做事了

這種方向很合理。現在很多人已經不缺「會說」的模型,缺的是「能收尾」的模型。尤其是文件整理、跨檔案修改、研究摘要這類工作,半路跑掉真的很煩。

如果你有用過舊版 Claude,就知道它有時候前半段很穩,後半段開始飄。Opus 4.7 想解的,就是這種長鏈路任務的掉線問題。

  • 官方發布頁主打長任務與代理式工作流
  • SWE-bench Multilingual:80.5%
  • GraphWalks BFS 1M:58.6%
  • Vending-Bench 2:最終餘額 10,937 美元

看圖能力,這次補得很兇

這版另一個很實際的升級,是看圖更細。Anthropic 提到,Opus 4.7 支援長邊最高 2576 像素的圖像輸入,約 375 萬像素。對密集截圖、圖表、流程圖、介面原型圖,這很有用。

以前很多模型一碰高解析 UI,就會漏小字、漏按鈕、漏局部結構。這次比較像是把「看得到」變成「看得清」。對 Computer Use 場景,這差很多。

你如果做產品設計、QA、前端除錯,這種能力很實用。因為它不只是讀圖,而是要從圖裡抓出操作線索。

“The future is already here — it’s just not very evenly distributed.” — William Gibson

這句話放在 AI 很貼切。有人還在拿模型聊天,有人已經拿它讀截圖、找欄位、整理表格。Opus 4.7 讓這條線又往前挪了一點。

和競品比,差距開始變具體

只看單一版本,Opus 4.7 只是比 Opus 4.6 強一截。但把它放進同級比較,差距就很清楚了。Artificial Analysis 的 GDPval-AA 評估,涵蓋 44 種知識工作職業與 9 大產業,任務來自平均 14 年經驗的資深從業者。

Claude Opus 4.7 上線:更會做事了

在這份評估裡,Opus 4.7 的 Elo 是 1753。Opus 4.6 是 1619。GPT-5.4 是 1674。Gemini 3.1 Pro 是 1314。這組數字很直接,Opus 4.7 已經把不少只會寫漂亮話的模型甩開。

企業文件推理的差距更誇張。Databricks OfficeQA Pro 測的是接近 100 年的美國財政部公報,資料有 8.9 萬頁 PDF 和 2600 萬個數字。這種題目很吃耐心,也很吃上下文管理。

  • GDPval-AA:Opus 4.7 1753,GPT-5.4 1674,Gemini 3.1 Pro 1314
  • OfficeQA Pro:Opus 4.7 80.6%,Opus 4.6 57.1%
  • Structural Biology:Opus 4.7 74.0%,Opus 4.6 30.9%
  • SWE-bench Multimodal:Opus 4.7 34.5%,Opus 4.6 27.1%

成本和安全,還是不能跳過

Opus 4.7 不是白送的升級。Anthropic 明講了,高解析度圖像會吃更多 Token,新分詞器也可能讓同樣輸入變成更多 Token。高 Effort 模式下,輸出也會更長。

這對個人用戶是額度問題。對團隊和 API 用戶,就是成本問題。你如果一天跑幾百次工作流,差一點點 Token,月底就會很有感。

安全面也不能忽略。Anthropic 在發布前提過 Project Glasswing,談前沿模型在網安上的風險與收益。Opus 4.7 也帶有自動偵測與攔截高風險網安請求的護欄。

這代表它不是只往能力衝,也在收邊界。說真的,這比空喊口號實際多了。

這版會先影響誰?

先有感的,大概不是只拿來聊天的人,而是每天都在處理程式、表格、截圖、文件的人。因為它的價值不在文采,而在少跑偏、少返工、少人工盯著。

如果你的流程本來就會讓模型先出草稿,再人工校對,Opus 4.7 會比較像一個能穩定接手中段工作的助手。它不一定每次都驚艷,但它可能更少搞砸。

我覺得接下來真正值得看的是企業採用率。問題已經不是模型能不能寫,而是它能不能在你的流程裡,乖乖把事情寫完。

如果你是開發者,現在就該測兩件事:長上下文穩不穩,Token 成本高不高。這兩個答案,會直接決定你要不要把它放進正式流程。