2026 LLM 排行榜:309 模型怎麼選
LLM Stats 用 309 個模型做排行榜,結合分數、速度、價格與每小時更新的 API 資料,幫你挑出適合開發的 LLM。

LLM Stats 用 309 個模型做排行榜,結合分數、速度和價格。
說真的,這種榜單比單看宣傳頁有用多了。它把 LLM Leaderboard 的 309 個模型排在一起,還每小時更新一次。
更實際的是,它不是只看一個分數。它把公開 benchmark 和即時 API 測量混在一起。對開發者來說,這比較接近真實選型。
| 指標 | 領先模型 | 數值 |
|---|---|---|
| 追蹤模型數 | LLM Stats | 309 |
| 寫程式表現 | Claude Opus 4.6 | 21.3 arena score |
| GPQA Diamond | Claude Mythos Preview | 94.6% |
| AIME 2025 | Gemini 3 Pro | 100.0% |
| 最高吞吐量 | Mercury 2 | 925 tok/s |
| 最大上下文 | Grok 4 Fast | 2.0M tokens |
這個排行榜到底在排什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
LLM Stats 想回答一個很直接的問題。今天到底該買哪個模型。不是哪個最會喊口號,而是哪個真的適合上線。

它把多種訊號放在一起。包含智慧分數、輸出速度、延遲、Token 價格。這樣看起來很雜,但其實很符合實務。因為你上線後,成本和延遲常常比榜首名次更痛。
這個頁面也把資料攤開給你看。你可以用公司、參數量、硬體、上下文長度、授權、模態、價格、國家和速度來排序。講白了,就是讓你少猜一點。
- 追蹤 309 個 canonical models
- 價格每小時重新驗證
- 即時效能用 7 天 rolling average
- 資料來源包含公開 price list 和 billing samples
我覺得這種設計很務實。它沒有假裝所有模型都該用同一把尺量。你要的是便宜、快、長上下文,還是高分,答案本來就不一樣。
數字比單一排名更誠實
看前段名次就知道,模型世界已經很分裂。Anthropic 的 Claude Opus 4.6 在 coding arena 拿到 21.3 分,速度是 39 c/s,上下文長度 1M。價格則是每百萬 input tokens 5 美元,output tokens 25 美元。
OpenAI 的 GPT-5.5 速度更快,達到 150 c/s。可是在價格上,還是落在 5 美元與 30 美元這個級距。快,不代表便宜。
再看便宜派。Google 的 Gemini 3 Flash 只要 0.50 美元 input 和 3.00 美元 output。速度卻有 247 c/s。這就很有意思了。
另外 Qwen 的 Qwen3.7 Max 也不差。價格是 1.25 美元和 3.75 美元,速度 120 c/s,上下文長度 1M。這種模型通常很適合做成本控管。
- Claude Opus 4.6:2,132 分,39 c/s,1M context
- GPT-5.5:2,105 分,150 c/s,1.1M context
- Gemini 3.1 Pro:2,101 分,164 c/s,2.50/15.00 美元
- Qwen3.7 Max:1,634 分,120 c/s,1M context
這些數字很直白。高分模型不一定最快。最快模型也不一定最省錢。對產品團隊來說,這不是小差異,是會直接影響毛利的差異。
方法論才是這榜單的重點
網站說,排序優先看 coding arena,沒有的話才看 GPQA Diamond。這個選擇其實很有態度。因為寫程式和做 agent 工作,真的比純背知識更接近實戰。

它也量測 output throughput 和 time-to-first-token。方法是用標準化 prompts,經由主要 API provider 跑測試,再做 7 天 rolling average。這比只看發表當天的數字更接近真實使用。
你可能會想問,為什麼不只看一個總分。因為總分很容易騙人。模型可能在某個 benchmark 很強,但在延遲、價格、或長上下文直接翻車。
“The coding arena is the most discriminating signal at the frontier,” the LLM Stats FAQ says.
這句話很直白。它等於在說,前沿模型的差距,寫 code 最看得出來。對開發者來說,這比一堆漂亮圖表更有參考價值。
我也認同這種做法。因為真正上線後,客服、代理、程式生成、文件摘要,全部都會碰到不同需求。用一個數字硬套,很容易選錯。
怎麼拿這份榜單來做選型
如果你是做軟體的,這張榜單最有用的地方,不是看第一名。是看你自己的需求落在哪個欄位。你要的是 coding、reasoning、long context,還是便宜吞吐量。
例如 Mercury 2 的吞吐量高到 925 tok/s。這很適合大量請求。Nemotron 3 Nano 則是每百萬 input tokens 0.06 美元。這種價格,對高頻 API 很有吸引力。
如果你做的是長文件分析,Grok 4 Fast 的 2.0M tokens 上下文就很有看頭。上下文夠長,很多 chunking 麻煩可以少掉。這點很實際,不是紙上談兵。
如果你想做比較,這份榜單也很方便。你可以直接把幾個候選模型拉出來,看分數、速度、價格和 context window。比起翻十幾個官網,省很多時間。
- Mercury 2:925 tok/s,適合高吞吐
- Nemotron 3 Nano:0.06 美元 input,最便宜
- Grok 4 Fast:2.0M tokens,上下文最長
- Claude Opus 4.6:coding 表現最強之一
講白了,這份榜單比較像選配表,不像冠軍海報。你要先知道產品卡在哪,再去挑模型。這樣才不會花大錢買錯東西。
這背後反映了什麼產業現況
LLM 的更新速度太快了。今天的榜首,下個月可能就被拉下來。靜態文章很容易過期,尤其是模型價格和 API 延遲,變動通常比 benchmark 更快。
所以像 LLM Leaderboard 這種每小時更新的頁面,價值就在這裡。它把 benchmark、即時測量、價格一起放進來,讓選型變成可重複的流程。
這也反映一個現實。現在已經不是「哪個模型最強」的年代。比較像是「哪個模型最適合這個任務」的年代。coding、reasoning、便宜推理、長上下文,全部開始分家。
對台灣團隊來說,這件事很重要。因為多數產品不是在做模型研究,而是在做服務。你要顧的是成本、延遲、穩定性,還有用戶真的會不會等你。
接下來該怎麼看這類排行榜
我的建議很簡單。先選一個你最在意的指標。是價格、速度、還是 coding 分數。不要一開始就被總排名帶著跑。
接著,保留 2 個高階模型和 1 個便宜模型。每次工作負載變了,再回來看一次。這比死守單一供應商安全,也比較不容易被價格波動打爆。
如果你現在就在做 LLM 產品,這份榜單可以直接拿來做 shortlist。先看你的任務,再看前 3 名。這樣選出來的模型,通常比只看宣傳頁更準。