OpenAI 定價把 token 算成預算

Q: 旗艦模型不是萬用預設值?

gpt-5.5 $5.00 $0.50 $30.00OpenAI 在 gpt-5.5 這列給的標準價格很直白：input $5.00 / 1M tokens、cached input $0.50、output $30.00。你只要看 output 那欄就知道，這不是拿來無腦灌所有請求的。尤其是 output 這種最容易失控的地方，一旦你讓模型長篇大論，成本會比你想像快很多。

Q: Cached input 不是魔法，是你少重送廢話的獎勵?

gpt-5.5 $0.50 cached inputcached input 這欄很容易被忽略，但我覺得它其實是在獎勵你不要每次都重送一大坨一模一樣的東西。以 gpt-5.5 來看，standard input 是 $5.00，cached input 只有 $0.50，差了 10 倍。這不是小數字，這是你有沒有把 prompt 結構整理好的差別。

OraCore Editors

返回首頁

[TOOLS] 2026年6月14日13 分鐘閱讀OraCore 編輯部

OpenAI 定價把 token 算成預算

把 OpenAI 定價拆成可直接貼進試算表的預算模板，順手教你怎麼看 token、cache、batch、priority 和 realtime。

分享 LinkedIn

這篇把 OpenAI 定價拆成可直接貼進試算表的預算模板。

我用 OpenAI 一陣子了，但定價頁每次都還是看得我火大。不是看不懂，是你以為自己懂了，結果一上線才發現 cache、batch、priority、realtime 全都在偷偷改你的帳單。第一次把產品真的接上 API，我還天真地以為 token 算一算就好，結果月底一看，才知道「模型價格」只是門票，真正燒錢的是你怎麼用它。

我想要的其實很單純：每個 token 到底多少錢、什麼情況該改成 batch、哪個模型適合大面積用、哪個模式只是讓你在財務會議上被問到冒汗。原始來源是 OpenAI pricing，我也一路對照了 prompt caching、batch、realtime，因為不把這些一起看，根本沒法算預算。

這篇不是在講「OpenAI 很貴」這種廢話。我是把它拆成一個我自己會拿去用的成本框架，讓你在做功能規劃時，先知道哪裡會爆、哪裡可以省、哪裡只是你自己寫太肥。

別把價格表當成單一數字看

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

Prices per 1M tokens.

翻譯一下就是，OpenAI 不是在跟你收「一次請求多少錢」，而是在跟你收「你送多少 token、吐多少 token、用什麼模式」的錢。這差很多。很多人只看模型名字，覺得選了便宜模型就安全了，結果 prompt 長到像論文，output 又放飛，帳單還是會來打臉。

我之前做過一個看起來很小的功能：短 prompt、短回覆、UI 也沒什麼花樣。結果一算才發現，system message 超長、上下文一直重送、輸出又比我預期多。產品看起來很輕，帳單一點都不輕。這就是 token math 的殘酷：使用者看到的是一個按鈕，你看到的是一串會累積的成本。

實操寫法很簡單：我現在都先把成本拆成三塊，而不是直接問「這個模型貴不貴」。

input cost：我送進去的內容
output cost：模型回給我的內容
execution mode：batch、flex、priority、realtime 會不會改價

只要你還把價格表當成單一數字，你就永遠只能做粗估，不能做預算。這不是財務問題，是產品規劃問題。

旗艦模型不是萬用預設值

gpt-5.5 $5.00 $0.50 $30.00

OpenAI 在 gpt-5.5 這列給的標準價格很直白：input $5.00 / 1M tokens、cached input $0.50、output $30.00。你只要看 output 那欄就知道，這不是拿來無腦灌所有請求的。尤其是 output 這種最容易失控的地方，一旦你讓模型長篇大論，成本會比你想像快很多。

白話講，gpt-5.5 比較像我會留給「真的需要它」的地方：最後整合、複雜推理、對外輸出的關鍵回答。不是每個 request 都該上旗艦。很多團隊犯的錯就是把最強模型當預設，然後再去解釋為什麼流量不大，帳單卻很像在跑廣告投放。

我自己踩過這個坑。以前我也覺得「用最好的總沒錯」，結果整個系統都跑在高成本模型上，功能看起來沒什麼，財務卻一直皺眉。後來我才認真做路由：簡單工作丟便宜模型，難題才升級，別每件事都拿 premium 來處理。

實操寫法我會這樣定：

抽取、分類、摘要草稿：便宜模型先做
一般使用者互動：中階模型處理
最後定稿、複雜推理、風險高的回答：旗艦模型才上

如果你要把這件事做對，先把 models page 打開。價格和能力要一起看，不然你會一直拿錯工具。

Cached input 不是魔法，是你少重送廢話的獎勵

gpt-5.5 $0.50 cached input

cached input 這欄很容易被忽略，但我覺得它其實是在獎勵你不要每次都重送一大坨一模一樣的東西。以 gpt-5.5 來看，standard input 是 $5.00，cached input 只有 $0.50，差了 10 倍。這不是小數字，這是你有沒有把 prompt 結構整理好的差別。

也就是說，prompt 本身就是成本設計的一部分。你如果每次都把超長 system prompt、政策塊、工具 schema 重新拼一次，cache 命中率就很差。反過來說，只要你把固定內容穩住，這筆錢就會好看很多。

我之前做客服 assistant 時就遇過這種事。一開始我一直想著怎麼把 prompt 縮短，後來才發現，真正有用的是把靜態區塊固定住，讓它有機會被 cache。不是每個字都要精簡到極致，而是要讓重複內容真的重複得起來。

實操寫法：

把靜態指令和使用者變數分開
盡量讓可重用區塊保持 byte-stable
上線後看 cache hit rate，不要只看模型品質

這部分可以直接對照 prompt caching。如果你沒在用，等於每次都在為同樣的字付全價。

Batch 和 flex 是給無聊工作省錢的

gpt-5.5 batch $2.50 input $15.00 output

價格表把 standard、batch、flex、priority 分開列，不是裝飾。它其實是在提醒你：工作型態不同，該付的錢就不同。像 gpt-5.5 的 batch，在短上下文表裡 input 是 $2.50、output 是 $15.00，跟 standard 比起來已經差很多了。

翻譯一下就是，如果你的工作不需要立刻回應，就別硬拿互動式價格。離線摘要、批次分析、報表生成、資料補齊、backfill，這些都很適合 batch。flex 也是同一套邏輯：你能接受排程彈性，通常就能換到比較省的成本。

我看過太多團隊把所有事情都當 chat message 來處理，這真的很浪費。夜間分類任務跟即時客服回覆，本來就不是同一種東西，卻常常被塞進同一個 billing mode。這種架構我只能說，方便是方便，帳單也會很有感。

實操寫法：

非即時任務優先走 batch
可容忍排程波動就考慮 flex
priority 留給真的卡住就會出事的路徑

如果你要落地，直接看 batch guide 和 production best practices。先把工作分類做好，再談省錢，不然只是猜。

Priority 是你在跟等待成本買單

gpt-5.5 priority $12.50 input $75.00 output

priority pricing 很直接，也很兇。gpt-5.5 在 priority 表裡是 input $12.50、output $75.00。這種價格我不會因為 dashboard 看起來比較順眼就亂開，我只會在「等待本身就是 bug」的時候用它。

白話講，有些 request 的成本不是 token，而是延遲。像是使用者正在等一個即時流程、轉換漏斗卡在那裡、客服回應慢到會讓人直接離開，這時候比較高的價格可能比延遲造成的損失還划算。但前提是，你要真的講得出這個理由。

我之前處理過一條尾延遲很難看的流程，團隊第一個反應就是「那就全上 priority」。我沒同意。先把慢點找出來，能修的修，真的需要高優先的才用。結果成本下來了，系統也沒那麼依賴暴力加價。

實操寫法：

每個 endpoint 先定 latency budget
只對有明確商業影響的路徑用 priority
把「延遲成本」跟「token 成本」一起算

如果你是在做 realtime 或互動式體驗，也可以對照 realtime 和 latency optimization。不然你很容易把「快」跟「貴」混成同一件事。

Mini 和 nano 才是大多數產品的真正常用款

gpt-5.4-mini $0.75 input $4.50 output
 gpt-5.4-nano $0.20 input $1.25 output

我最信任的，反而常常不是最貴的，而是 mini 跟 nano 這種小模型。OpenAI 在標準表裡列出 gpt-5.4-mini 是 input $0.75、output $4.50；gpt-5.4-nano 更低，input $0.20、output $1.25。這才是大多數產品真的能拿來做大規模使用的區段。

也就是說，如果你的工作只是抽欄位、分類、標註、生成第一版草稿，小模型通常就夠了。你不需要每次都請大模型出馬。小模型的好處不是只有便宜，還有比較容易控、比較容易擴、比較不容易把簡單流程搞成財務災難。

我很常把小模型當前線工人。先做重複、規則性高的工作，真的不確定的 case 再往上升。這種做法很無聊，但很穩，而且穩本身就是一種優勢。

實操寫法：

結構化任務先從 mini 或 nano 開始
只有在信心不足或語意模糊時才升級
不要只看品質，還要一起看 spend

如果你要把小模型用好，structured output 很值得一起看。限制輸出格式後，小模型會變得更像樣。

Realtime 不能照 token 邏輯硬算，要按分鐘和模態拆

gpt-realtime-2 Audio $32.00 input $64.00 output
realtime-translate $0.034 / minute

realtime 這一段把計價邏輯整個換掉了。像 gpt-realtime-2，Audio 是 $32.00 input、$64.00 output per 1M tokens，Text 是 $4.00 input、$24.00 output，Image 也有自己的價格。還有 gpt-realtime-translate 是 $0.034 / minute。這已經不是單純的 token math，而是 usage math。

翻譯一下就是，語音、即時互動、翻譯這些東西，不能拿一般 chat 的心智模型去套。你如果還用同一張表去算文字和語音，算出來的結果常常會很荒謬。因為單位不同，成本結構也不同。

我之前做 voice feature 時就幹過這件蠢事，把語音和文字硬塞進同一個欄位。結果一開始看不出來差異，後來才發現 session length、audio token、text token 根本是三種不同帳。拆開後，預算才像樣。

實操寫法：

realtime 先按 session 長度估
peak 和 average minutes 分開算
翻譯、語音生成、文字回覆分成不同 cost center

如果你要做實作，邊看 voice agents、transcription，邊算才不會亂。

合規和採購會直接改掉你的數學

Regional processing ... charged a 10% uplift

OpenAI 也寫得很明白：regional processing 對某些符合資料駐留條件的模型，會有 10% uplift。再加上如果你是透過 Amazon Bedrock 這類平台買，帳單又可能跟直連 API 不一樣。這些都不是細節，這些是會讓你預算失真的東西。

白話講，合規不是附加題，它會直接把成本拉高。你如果要資料駐留、要走特定雲端採購、要經過 reseller，最後看到的價格很可能不是公開 pricing page 那一套。這很正常，只是你要早點算進去，不要等財務來問你為什麼 forecast 對不起來。

我看過太多團隊以為公開價格就是最終答案，結果一碰到 enterprise 條件就整個歪掉。地區、採購路徑、平台選擇，這三個東西都會改數字。

實操寫法：

把 direct API 和 reseller pricing 分開記
資料駐留需求要提早標記
預算表裡加一條 compliance uplift

政策面可以先看 Your data。這部分很無聊，但不看會更無聊，因為最後是你去跟採購解釋。

可抄的模板

# OpenAI 成本預算模板

## 1) 先定工作類型
- 工作名稱：
- 這是即時還是非即時：
- 延遲目標：
- 是否需要合規 / 資料駐留：
- 走直連 API 還是 reseller：

## 2) 選執行模式
- Standard / Batch / Flex / Priority / Realtime：
- 為什麼選這個模式：
- 什麼情況下要切換模式：

## 3) 選模型層級
- 主模型：
- 備援模型：
- 升級規則：
- 為什麼主模型夠用：

## 4) 估使用量
- 每日請求數：
- 每次平均 input tokens：
- 每次平均 cached input tokens：
- 每次平均 output tokens：
- 如果是 realtime，平均 session 分鐘：

## 5) 填價格
- 每 1M input tokens 價格：
- 每 1M cached input tokens 價格：
- 每 1M output tokens 價格：
- 每分鐘價格（如果適用）：
- regional uplift（如果適用）：
- 平台或 reseller 額外加價（如果適用）：

## 6) 算月成本
- 月 input tokens = 每日請求數 × 30 × 平均 input tokens
- 月 cached input tokens = 每日請求數 × 30 × 平均 cached input tokens
- 月 output tokens = 每日請求數 × 30 × 平均 output tokens
- 月 realtime 分鐘 = sessions/day × 30 × 平均分鐘數

## 7) 成本公式
- Input cost = 月 input tokens ÷ 1,000,000 × input price
- Cached input cost = 月 cached input tokens ÷ 1,000,000 × cached input price
- Output cost = 月 output tokens ÷ 1,000,000 × output price
- Realtime cost = 月分鐘數 × 每分鐘價格
- Subtotal = 上面全部加總
- Uplift = subtotal × regional uplift（如果需要）
- Total = subtotal + uplift

## 8) 路由規則
- 便宜模型先處理：
- 什麼情況升級到強模型：
- 什麼工作走 batch：
- 什麼工作才准用 priority：
- 什麼工作才准用 realtime：

## 9) 風控
- 月預算上限：
- 警戒線：
- 最大 output tokens：
- 最大 session 長度：
- 檢查頻率：

## 10) 備註
- pricing page：
- 工作說明文件：
- prompt caching / batch 文件：

這份模板我會直接丟給團隊用。它逼你先講工作型態，再講模型，最後才講價格，這樣才不會每次都被「哪個模型最強」帶偏。你如果願意再多做一步，就把第一週的實際成本跟估算值放在同一欄，之後你會很快知道自己是不是在亂猜。

來源：https://developers.openai.com/api/docs/pricing。這篇的拆解是我自己整理的，但價格數字、表格結構和相關模式都來自 OpenAI 官方文件；你真的要拿去做預算，還是得回頭看 live page，因為價格更新這種事，從來不會先通知你。

// 相關文章

OpenAI 定價把 token 算成預算

別把價格表當成單一數字看

訂閱 AI 趨勢週報

旗艦模型不是萬用預設值

Cached input 不是魔法，是你少重送廢話的獎勵

Batch 和 flex 是給無聊工作省錢的

Priority 是你在跟等待成本買單

Mini 和 nano 才是大多數產品的真正常用款

Realtime 不能照 token 邏輯硬算，要按分鐘和模態拆

合規和採購會直接改掉你的數學

可抄的模板

Ubuntu 上安裝 Docker Engine，官方倉庫才是正路

Rust 讓你先跑分，Go 讓你先上線

10 個身分協議把 KYC 變私密

用 Consensus AI 快速掃描文獻

15 個 Perplexity 研究決策提示詞

Mistral AI 模型 2026 實作選型指南