Qwen3.6-35B-A3B 打開 Agentic Co…
Qwen3.6-35B-A3B 只有 3B active parameters,卻主打 agentic coding、工具呼叫與多模態推理。這款 MoE 模型已開放下載,也支援多種 API 與開發工具。

說真的,Qwen 這次丟出來的東西很有意思。Qwen3.6-35B-A3B 總參數 35B,但每個 token 只啟用 3B。這數字很關鍵,因為它直接影響推理成本和延遲。
更有趣的是,它不是只會聊天。官方把它往 agentic coding、工具使用、多模態推理這幾個方向推。講白了,就是想讓模型在 IDE、終端機、API 流程裡真的幹活,而不是只會寫漂亮句子。
而且它已經不是封在實驗室裡。你可以在 Qwen Studio、ModelScope,還有 Hugging Face 找到它。對開發者來說,這種可用性比口號重要多了。
3B active,為什麼大家會在意
先講 MoE。Qwen 這款是 sparse MoE,也就是 mixture-of-experts。每個 token 不會把整個 35B 都叫醒,只會路由到部分 expert。這種設計很像叫幾個專長不同的同事來接球,不是把整間公司都拉進會議室。

這裡的 3B active parameters 很重要。因為推理成本通常跟 active parameters 更接近,不是只看總參數。對伺服器來說,少動用一些權重,常常就能換到更好的吞吐和更低的 GPU 壓力。
Qwen 官方把它定位在 coding、reasoning、tool use。這三個詞放一起,意思很明白。它不是拿來做單輪問答而已,而是拿來跑多步驟任務。像是讀 repo、改檔、測試、再修一次。
- 總參數:35B
- 每 token 啟用:3B
- 模型類型:sparse MoE
- 主打場景:agentic coding、工具使用、多模態推理
- 可用平台:Qwen Studio、Hugging Face、ModelScope
- API 名稱:qwen3.6-flash
我覺得這種設計對台灣團隊很實際。很多公司不是沒需求,是沒預算。你要一個能跑 agent 的模型,結果每次呼叫都像在燒錢,那根本撐不久。3B active 的路線,至少在成本上比較像能落地的方案。
它到底比前一代強在哪
官方說法很直接。Qwen3.6-35B-A3B 比 Qwen3.5-35B-A3B 更強,特別是在 agentic coding 和 reasoning。這種升級如果真的成立,代表它不是只有補幾個分數,而是把模型的工作方式調得更適合 agent。
還有一個比較扎眼的點。它在一些 code benchmark 上,甚至能壓過更密集的 27B 模型,例如 Qwen3.5-27B 和 Gemma 3 27B。這不是小事,因為它代表 sparse 路線不一定只是在省成本,也可能真的省出可用性。
多模態部分也很有料。Qwen 公布的數字裡,RefCOCO 92.0、ODInW13 50.8,這些都指向視覺理解能力。對前端工程師、產品設計師、QA 團隊來說,這種能力可以拿來看截圖、辨識 UI、檢查版面,甚至幫 agent 讀畫面後再操作。
“The model can achieve strong agentic coding and reasoning performance with only 3B active parameters.” — Qwen release post on Zhihu
這句話我覺得很直白。它不是在吹總參數多大,而是在講 active 的效率。也就是說,模型真正做事時,不必把整個網路都拉上來。這對延遲和成本都很有感。
如果你是做產品的人,這種差異更好理解。35B 聽起來很大,但 3B active 的體感可能比較接近一個能控制住成本的服務。尤其是 agent 會連續呼叫多次,差一點點延遲,整體體驗就差很多。
開發者怎麼接進工具鏈
這次 Qwen 沒有只給下載連結。它還把模型接進幾個開發者常用工具。像是 Qwen Code,還有 OpenHands。如果你習慣在終端機裡跑 agent,這種整合就很順手。

更實用的是,它也能透過 Anthropic 相容介面接到 Claude Code 類型的工作流。這代表你不一定要重寫整套程式。很多既有腳本,只要換 endpoint 或調一下格式,就能先跑起來。
在雲端 API 方面,Alibaba Cloud Model Studio 也支援 OpenAI 風格的 chat completions 和 responses API。還有 preserve_thinking 這種設計,讓前面推理痕跡能留在多輪對話裡。對 agent 來說,這很重要,因為它常常要記住前一步怎麼想。
- OpenAI 相容 chat completions
- OpenAI 相容 responses API
- Anthropic 相容介面
- preserve_thinking 可保留推理脈絡
- 支援終端機型 agent 工作流
- 可下載權重做本地測試
這裡的策略很聰明。它不是把你綁死在單一平台,而是讓你從現有工具直接切進去。對工程團隊來說,導入成本低,試用門檻也低。這種事通常比一堆行銷話更有用。
和其他模型比,差在哪裡
如果只看數字,Qwen3.6-35B-A3B 不是最大,也不是最密。可是在 agentic coding 這個場景,總參數不是唯一答案。你要看的還有 routing、tool use、上下文維持能力,還有它在多輪操作時會不會亂掉。
拿 Qwen3.5-27B 來比,35B MoE 的總參數更高,但 active 只有 3B。這種結構如果訓練得好,可能會在推理成本和能力之間取得更好的平衡。拿 Gemma 3 27B 來看,dense 模型通常比較直覺,但在大規模部署時,成本壓力也更直接。
再看 Claude Sonnet 4.5。Qwen 公布的視覺語言數據說它在多數項目上能追平或超過。這種說法當然要等社群實測,但至少表示 open model 已經不是只能追著閉源模型跑。
- Qwen3.6-35B-A3B:35B total、3B active
- Qwen3.5-27B:dense 路線,推理成本通常較高
- Gemma 3 27B:密集模型,部署邏輯較單純
- Claude Sonnet 4.5:閉源商用模型,視覺與推理表現強
- MoE 優勢:降低每 token 計算量
- dense 優勢:結構簡單,行為較容易預測
我自己的看法是,這輪比較的重點已經變了。以前大家看的是誰參數最大。現在更像是誰能在 agent loop 裡穩定工作,還能把帳單壓住。這才是工程團隊真的會在意的地方。
這波對開源模型意味著什麼
開源模型現在很少只拼「會不會回答」。大家開始拼的是工作流。模型要能讀檔、改檔、呼叫工具、保留狀態,還要在錯的時候自己修。這些能力加起來,才像一個能幹活的 agent。
Qwen 這次把 Qwen3.6-35B-A3B 放出來,我覺得是在提醒大家一件事。模型設計不一定要一路往更大走。把稀疏化、工具使用、推理模式切開,反而可能更適合真實產品。
這也會影響部署選擇。很多團隊以前覺得,做 coding agent 就得上超大模型。現在如果 3B active 的 MoE 真的夠穩,那中型伺服器、混合部署、甚至部分本地化推理,都變得比較有機會。對預算有限的新創,這差很多。
我覺得下一輪競爭不會只看榜單。會看三件事:第一,agent 能不能穩。第二,工具呼叫會不會亂。第三,成本能不能撐得住。Qwen3.6-35B-A3B 至少把這三件事都擺上檯面了。
接下來該看什麼
如果你手上有 coding agent 專案,我會建議直接拿它做 A/B test。不要只看 benchmark。把你的 repo、你的測試流程、你的工具鏈丟進去,比看排行榜更準。
接下來真正值得觀察的,是社群怎麼回報它在長上下文、多人協作、以及失敗重試時的表現。只要這幾項不太翻車,它就可能變成不少團隊的預設選項之一。
講白了,這次不是在比誰最會講。是在比誰真的能寫 code、跑工具、少花錢。這種模型如果表現穩,開發者自然會用腳投票。


