Mistral Small 2603：256K 上下文很能打

Q: 基準分數透露的事?

這組 benchmark 不算炸裂，但很實際。49.1% 的 MMLU Pro，代表它在廣泛知識任務上還算穩。34.9% 的 GPQA Diamond，則提醒你它在研究級科學題上還有明顯壓力。

Q: 價格才是最有感的地方?

每百萬 input token 收 $0.15，每百萬 output token 收 $0.60。這種定價很明顯是給使用量，不是給品牌面子。你如果有長 prompt，但輸出不長，這顆模型會很划算。

OraCore Editors

返回首頁

[MODEL] 2026年7月3日8 分鐘閱讀OraCore 編輯部

Mistral Small 2603：256K 上下文很能打

Mistral Small 2603 把 256K context、每百萬 input $0.15、output $0.60 放在一起，適合長文件、工具呼叫與結構化輸出，但科學與推理基準仍有明顯天花板。

benchmark

分享 LinkedIn

Mistral Small 2603 把 256K context、低 token 價格和中段 benchmark 放在一起，適合長文件處理與工具型應用。

Requesty 現在列出 Mistral AI SAS 的 mistral-small-2603。它有 256K token context，input 每百萬 token 收 $0.15，output 收 $0.60。講白了，這就是給想省錢又要長上下文的團隊用的。

這顆模型不是走誇張路線。它比較像務實派。你如果要做文件摘要、資料抽取、客服助理，或是需要 vision 和 JSON schema 的工作流，它的定位就很清楚。

指標	數值	意思
Input 價格	$0.15 / 1M tokens	高頻工作也扛得住
Output 價格	$0.60 / 1M tokens	輸出才是成本重點
Context window	256K tokens	長文件、log、multi-step prompt 都能塞
MMLU Pro	49.1%	一般知識與推理還行
GPQA Diamond	34.9%	硬科學題還是會卡
SciCode	11.8%	科學型 coding 任務不算強

這顆模型到底在做什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

Mistral Small 的設計方向很明確。它把 instruction following、reasoning、coding 放在同一個模型裡。再加上 vision、tool calling、JSON schema output，產品團隊會很有感。

這種設計很適合做助手、文件處理器、內部 agent。你不用每個任務都換一顆模型。少折騰一點，工程團隊就少掉很多整合成本。

Requesty 的 model card 還寫了 119B parameters，但只有 6.5B active。這代表它看起來很大，實際推理時只啟用一小部分參數。說真的，這種架構通常就是在算成本和延遲。

對很多團隊來說，這比單看總參數有用。因為你買的是可用性，不是紙面數字。API 好不好用，最後還是看 latency、穩定性、和每次請求的帳單。

Model ID：mistral/mistral-small-2603
加入時間：2026-06-29
Context window：256K tokens
Max output：N/A
Data retention：30 天
是否用於訓練：否

基準分數透露的事

這組 benchmark 不算炸裂，但很實際。49.1% 的 MMLU Pro，代表它在廣泛知識任務上還算穩。34.9% 的 GPQA Diamond，則提醒你它在研究級科學題上還有明顯壓力。

如果你的需求偏問答、摘要、分類、抽取，這種分數其實夠用。你不一定需要最強模型。你需要的是在合理成本下，穩定把事情做完。

11.8% 的 SciCode 就比較刺眼。這表示它在科學型 coding 任務上，還不是主力選項。拿它來做一般 coding assistant 可以，但拿來硬碰專門研究任務，風險就高了。

“Benchmarks are useful, but they are not the product,” said OpenAI in its evals guidance.

這句話其實很中肯。很多團隊太愛看 leaderboard，卻忽略真實工作流。真實世界的 prompt 很髒，還會混格式、混語言、混上下文。

Requesty 說這些數字來自官方 model card、Artificial Analysis 和公開 leaderboard。這種來源組合不錯，但還是該把它當起點，不是終局判決。

MMLU Pro：49.1%
GPQA Diamond：34.9%
SciCode：11.8%
Artificial Analysis Intelligence Index：3.6%
Released：2023-12-11

價格才是最有感的地方

每百萬 input token 收 $0.15，每百萬 output token 收 $0.60。這種定價很明顯是給使用量，不是給品牌面子。你如果有長 prompt，但輸出不長，這顆模型會很划算。

Requesty 還直接算了幾個場景。100K input + 10K output 是 $0.0210。1M input + 100K output 是 $0.21。10M input + 1M output 是 $2.10。這些數字很適合拿去跟預算表對。

更有意思的是，Requesty 說它不加價，也不收 per-request fee。它就是照上游價格走。再加上 prompt caching 和 smart routing，某些工作流可以再省 30% 到 80%。

這裡的重點很直白。模型本身便宜，只是第一層。真正會影響帳單的，是你有沒有重複送相同上下文，有沒有把長對話一直灌到底，有沒有做 routing。

100K input + 10K output：$0.0210
1M input + 100K output：$0.21
10M input + 1M output：$2.10
快取與 routing 可能省下：30% 到 80%

放進 OpenAI 相容架構有多簡單

Requesty 的整合方式很直接。你把 OpenAI SDK 指到 https://router.requesty.ai/v1，換成 Requesty API key，再把 model 名稱設成 mistral/mistral-small-2603 就能測。

這件事很重要。很多團隊不是不想換模型，而是怕改程式。只要 API 介面相容，導入新模型的門檻就低很多。

它還說平台後面有超過 400 個模型。對想做 A/B test 的團隊來說，這種 router 比單一供應商彈性大很多。你可以先測，再決定要不要正式上線。

如果你的產品是文件助理、客服系統、內部知識庫，這顆模型很值得試。它不一定是最強的，但它很可能是最划算的那一類。

API base URL：https://router.requesty.ai/v1
模型名稱：mistral/mistral-small-2603
可用模型數：400+
支援：Python、JavaScript、cURL

跟其他模型比，差在哪裡

如果你拿它去比高價旗艦模型，結果大概不會太意外。它不是來搶最強推理王座的。它的優勢是長上下文、便宜、還能處理工具呼叫和 vision。

跟同價位模型比，它的 256K context 很有競爭力。很多模型價格低，但 context 也短。對文件型應用來說，短 context 真的很煩，因為你得一直切段、一直補上下文。

如果跟專門做 code 或 research 的模型比，它的 benchmark 會顯得普通。可是大多數產品不是在寫論文，也不是在刷競賽。它們是在處理表單、客服單、文件、log、和工作流。

優勢：256K context
優勢：低 input 成本
優勢：支援 vision 與 JSON schema
弱項：GPQA Diamond 34.9%
弱項：SciCode 11.8%

這類模型在產業裡的角色

現在很多公司都在找「夠好，但不要太貴」的模型。原因很現實。真正上線後，Token 成本會比 demo 時期更刺眼。尤其是長文件、客服對話、和多步驟 agent，成本很快就堆上去。

Claude、GPT-4o 這類模型很強，但不是每個場景都要用到那種級別。很多時候，團隊要的是穩定、便宜、可控，還有能跟既有系統快速接上。

這也是為什麼 router 型平台會越來越常見。像 OpenRouter、LiteLLM 這類工具，重點都不是自己做模型，而是幫你把模型接得更順。

說白了，Mistral Small 2603 的價值不在「最強」。它的價值在「夠用，而且便宜到可以大量跑」。這種模型通常會先吃下內部工具、文件管線、和中階 agent 工作。

我會怎麼看這顆模型

如果你要做長上下文應用，這顆值得試。尤其是你很在意 input 成本，又不想犧牲太多功能。256K context 真的很方便，不用一直切文件。

但如果你的任務是高難度科學推理，或是很吃 code correctness，那就別太樂觀。benchmark 已經把警訊寫在那裡了。它不是不能用，是別把它拿去做不適合的事。

我會建議先拿真實資料跑一輪。看你的 prompt 長度、輸出長度、錯誤率、和每次請求成本。只看 benchmark 很容易誤判，真正的帳單和使用體感才是重點。

如果你現在就在選模型，我的建議很簡單：先拿它做 100 筆真實任務測試。看它能不能在成本和品質之間，交出你要的那條線。

// 相關文章

Mistral Small 2603：256K 上下文很能打

這顆模型到底在做什麼

訂閱 AI 趨勢週報

基準分數透露的事

價格才是最有感的地方

放進 OpenAI 相容架構有多簡單

跟其他模型比，差在哪裡

這類模型在產業裡的角色

我會怎麼看這顆模型

豆包 Seed 2.1 Pro 不是追赶者，而是 Agent 时代的均衡強者

ACE-Step 1.5 證明本地音樂生成已經是產品，不是 demo

Sora 30座電動機首輪VTOL測試過關

Claude Tag 把 Slack 變成 AI 同事

OpenAI自研芯片不是秀肌肉，而是英伟达的真实威胁

K3s v1.34.9 更新重點整理