Model Releases/·7 min read·OraCore Editors

Qwen3.6-35B-A3B 打開 Agentic Co…

Qwen3.6-35B-A3B 只有 3B active parameters,卻主打 agentic coding、工具呼叫與多模態推理。這款 MoE 模型已開放下載,也支援多種 API 與開發工具。

Share LinkedIn
Qwen3.6-35B-A3B 打開 Agentic Co…

說真的,Qwen 這次丟出來的東西很有意思。Qwen3.6-35B-A3B 總參數 35B,但每個 token 只啟用 3B。這數字很關鍵,因為它直接影響推理成本和延遲。

更有趣的是,它不是只會聊天。官方把它往 agentic coding、工具使用、多模態推理這幾個方向推。講白了,就是想讓模型在 IDE、終端機、API 流程裡真的幹活,而不是只會寫漂亮句子。

而且它已經不是封在實驗室裡。你可以在 Qwen StudioModelScope,還有 Hugging Face 找到它。對開發者來說,這種可用性比口號重要多了。

3B active,為什麼大家會在意

先講 MoE。Qwen 這款是 sparse MoE,也就是 mixture-of-experts。每個 token 不會把整個 35B 都叫醒,只會路由到部分 expert。這種設計很像叫幾個專長不同的同事來接球,不是把整間公司都拉進會議室。

Qwen3.6-35B-A3B 打開 Agentic Co…

這裡的 3B active parameters 很重要。因為推理成本通常跟 active parameters 更接近,不是只看總參數。對伺服器來說,少動用一些權重,常常就能換到更好的吞吐和更低的 GPU 壓力。

Qwen 官方把它定位在 coding、reasoning、tool use。這三個詞放一起,意思很明白。它不是拿來做單輪問答而已,而是拿來跑多步驟任務。像是讀 repo、改檔、測試、再修一次。

  • 總參數:35B
  • 每 token 啟用:3B
  • 模型類型:sparse MoE
  • 主打場景:agentic coding、工具使用、多模態推理
  • 可用平台:Qwen Studio、Hugging Face、ModelScope
  • API 名稱:qwen3.6-flash

我覺得這種設計對台灣團隊很實際。很多公司不是沒需求,是沒預算。你要一個能跑 agent 的模型,結果每次呼叫都像在燒錢,那根本撐不久。3B active 的路線,至少在成本上比較像能落地的方案。

它到底比前一代強在哪

官方說法很直接。Qwen3.6-35B-A3B 比 Qwen3.5-35B-A3B 更強,特別是在 agentic coding 和 reasoning。這種升級如果真的成立,代表它不是只有補幾個分數,而是把模型的工作方式調得更適合 agent。

還有一個比較扎眼的點。它在一些 code benchmark 上,甚至能壓過更密集的 27B 模型,例如 Qwen3.5-27BGemma 3 27B。這不是小事,因為它代表 sparse 路線不一定只是在省成本,也可能真的省出可用性。

多模態部分也很有料。Qwen 公布的數字裡,RefCOCO 92.0、ODInW13 50.8,這些都指向視覺理解能力。對前端工程師、產品設計師、QA 團隊來說,這種能力可以拿來看截圖、辨識 UI、檢查版面,甚至幫 agent 讀畫面後再操作。

“The model can achieve strong agentic coding and reasoning performance with only 3B active parameters.” — Qwen release post on Zhihu

這句話我覺得很直白。它不是在吹總參數多大,而是在講 active 的效率。也就是說,模型真正做事時,不必把整個網路都拉上來。這對延遲和成本都很有感。

如果你是做產品的人,這種差異更好理解。35B 聽起來很大,但 3B active 的體感可能比較接近一個能控制住成本的服務。尤其是 agent 會連續呼叫多次,差一點點延遲,整體體驗就差很多。

開發者怎麼接進工具鏈

這次 Qwen 沒有只給下載連結。它還把模型接進幾個開發者常用工具。像是 Qwen Code,還有 OpenHands。如果你習慣在終端機裡跑 agent,這種整合就很順手。

Qwen3.6-35B-A3B 打開 Agentic Co…

更實用的是,它也能透過 Anthropic 相容介面接到 Claude Code 類型的工作流。這代表你不一定要重寫整套程式。很多既有腳本,只要換 endpoint 或調一下格式,就能先跑起來。

在雲端 API 方面,Alibaba Cloud Model Studio 也支援 OpenAI 風格的 chat completions 和 responses API。還有 preserve_thinking 這種設計,讓前面推理痕跡能留在多輪對話裡。對 agent 來說,這很重要,因為它常常要記住前一步怎麼想。

  • OpenAI 相容 chat completions
  • OpenAI 相容 responses API
  • Anthropic 相容介面
  • preserve_thinking 可保留推理脈絡
  • 支援終端機型 agent 工作流
  • 可下載權重做本地測試

這裡的策略很聰明。它不是把你綁死在單一平台,而是讓你從現有工具直接切進去。對工程團隊來說,導入成本低,試用門檻也低。這種事通常比一堆行銷話更有用。

和其他模型比,差在哪裡

如果只看數字,Qwen3.6-35B-A3B 不是最大,也不是最密。可是在 agentic coding 這個場景,總參數不是唯一答案。你要看的還有 routing、tool use、上下文維持能力,還有它在多輪操作時會不會亂掉。

Qwen3.5-27B 來比,35B MoE 的總參數更高,但 active 只有 3B。這種結構如果訓練得好,可能會在推理成本和能力之間取得更好的平衡。拿 Gemma 3 27B 來看,dense 模型通常比較直覺,但在大規模部署時,成本壓力也更直接。

再看 Claude Sonnet 4.5。Qwen 公布的視覺語言數據說它在多數項目上能追平或超過。這種說法當然要等社群實測,但至少表示 open model 已經不是只能追著閉源模型跑。

  • Qwen3.6-35B-A3B:35B total、3B active
  • Qwen3.5-27B:dense 路線,推理成本通常較高
  • Gemma 3 27B:密集模型,部署邏輯較單純
  • Claude Sonnet 4.5:閉源商用模型,視覺與推理表現強
  • MoE 優勢:降低每 token 計算量
  • dense 優勢:結構簡單,行為較容易預測

我自己的看法是,這輪比較的重點已經變了。以前大家看的是誰參數最大。現在更像是誰能在 agent loop 裡穩定工作,還能把帳單壓住。這才是工程團隊真的會在意的地方。

這波對開源模型意味著什麼

開源模型現在很少只拼「會不會回答」。大家開始拼的是工作流。模型要能讀檔、改檔、呼叫工具、保留狀態,還要在錯的時候自己修。這些能力加起來,才像一個能幹活的 agent。

Qwen 這次把 Qwen3.6-35B-A3B 放出來,我覺得是在提醒大家一件事。模型設計不一定要一路往更大走。把稀疏化、工具使用、推理模式切開,反而可能更適合真實產品。

這也會影響部署選擇。很多團隊以前覺得,做 coding agent 就得上超大模型。現在如果 3B active 的 MoE 真的夠穩,那中型伺服器、混合部署、甚至部分本地化推理,都變得比較有機會。對預算有限的新創,這差很多。

我覺得下一輪競爭不會只看榜單。會看三件事:第一,agent 能不能穩。第二,工具呼叫會不會亂。第三,成本能不能撐得住。Qwen3.6-35B-A3B 至少把這三件事都擺上檯面了。

接下來該看什麼

如果你手上有 coding agent 專案,我會建議直接拿它做 A/B test。不要只看 benchmark。把你的 repo、你的測試流程、你的工具鏈丟進去,比看排行榜更準。

接下來真正值得觀察的,是社群怎麼回報它在長上下文、多人協作、以及失敗重試時的表現。只要這幾項不太翻車,它就可能變成不少團隊的預設選項之一。

講白了,這次不是在比誰最會講。是在比誰真的能寫 code、跑工具、少花錢。這種模型如果表現穩,開發者自然會用腳投票。