[TOOLS] 13 分鐘閱讀OraCore 編輯部

OpenAI 定價把 token 算成預算

把 OpenAI 定價拆成可直接貼進試算表的預算模板,順手教你怎麼看 token、cache、batch、priority 和 realtime。

分享 LinkedIn
OpenAI 定價把 token 算成預算

這篇把 OpenAI 定價拆成可直接貼進試算表的預算模板。

我用 OpenAI 一陣子了,但定價頁每次都還是看得我火大。不是看不懂,是你以為自己懂了,結果一上線才發現 cache、batch、priority、realtime 全都在偷偷改你的帳單。第一次把產品真的接上 API,我還天真地以為 token 算一算就好,結果月底一看,才知道「模型價格」只是門票,真正燒錢的是你怎麼用它。

我想要的其實很單純:每個 token 到底多少錢、什麼情況該改成 batch、哪個模型適合大面積用、哪個模式只是讓你在財務會議上被問到冒汗。原始來源是 OpenAI pricing,我也一路對照了 prompt cachingbatchrealtime,因為不把這些一起看,根本沒法算預算。

這篇不是在講「OpenAI 很貴」這種廢話。我是把它拆成一個我自己會拿去用的成本框架,讓你在做功能規劃時,先知道哪裡會爆、哪裡可以省、哪裡只是你自己寫太肥。

別把價格表當成單一數字看

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

Prices per 1M tokens.

翻譯一下就是,OpenAI 不是在跟你收「一次請求多少錢」,而是在跟你收「你送多少 token、吐多少 token、用什麼模式」的錢。這差很多。很多人只看模型名字,覺得選了便宜模型就安全了,結果 prompt 長到像論文,output 又放飛,帳單還是會來打臉。

OpenAI 定價把 token 算成預算

我之前做過一個看起來很小的功能:短 prompt、短回覆、UI 也沒什麼花樣。結果一算才發現,system message 超長、上下文一直重送、輸出又比我預期多。產品看起來很輕,帳單一點都不輕。這就是 token math 的殘酷:使用者看到的是一個按鈕,你看到的是一串會累積的成本。

實操寫法很簡單:我現在都先把成本拆成三塊,而不是直接問「這個模型貴不貴」。

  • input cost:我送進去的內容
  • output cost:模型回給我的內容
  • execution mode:batch、flex、priority、realtime 會不會改價

只要你還把價格表當成單一數字,你就永遠只能做粗估,不能做預算。這不是財務問題,是產品規劃問題。

旗艦模型不是萬用預設值

gpt-5.5 $5.00 $0.50 $30.00

OpenAI 在 gpt-5.5 這列給的標準價格很直白:input $5.00 / 1M tokens、cached input $0.50、output $30.00。你只要看 output 那欄就知道,這不是拿來無腦灌所有請求的。尤其是 output 這種最容易失控的地方,一旦你讓模型長篇大論,成本會比你想像快很多。

白話講,gpt-5.5 比較像我會留給「真的需要它」的地方:最後整合、複雜推理、對外輸出的關鍵回答。不是每個 request 都該上旗艦。很多團隊犯的錯就是把最強模型當預設,然後再去解釋為什麼流量不大,帳單卻很像在跑廣告投放。

我自己踩過這個坑。以前我也覺得「用最好的總沒錯」,結果整個系統都跑在高成本模型上,功能看起來沒什麼,財務卻一直皺眉。後來我才認真做路由:簡單工作丟便宜模型,難題才升級,別每件事都拿 premium 來處理。

實操寫法我會這樣定:

  • 抽取、分類、摘要草稿:便宜模型先做
  • 一般使用者互動:中階模型處理
  • 最後定稿、複雜推理、風險高的回答:旗艦模型才上

如果你要把這件事做對,先把 models page 打開。價格和能力要一起看,不然你會一直拿錯工具

Cached input 不是魔法,是你少重送廢話的獎勵

gpt-5.5 $0.50 cached input

cached input 這欄很容易被忽略,但我覺得它其實是在獎勵你不要每次都重送一大坨一模一樣的東西。以 gpt-5.5 來看,standard input 是 $5.00,cached input 只有 $0.50,差了 10 倍。這不是小數字,這是你有沒有把 prompt 結構整理好的差別。

OpenAI 定價把 token 算成預算

也就是說,prompt 本身就是成本設計的一部分。你如果每次都把超長 system prompt、政策塊、工具 schema 重新拼一次,cache 命中率就很差。反過來說,只要你把固定內容穩住,這筆錢就會好看很多。

我之前做客服 assistant 時就遇過這種事。一開始我一直想著怎麼把 prompt 縮短,後來才發現,真正有用的是把靜態區塊固定住,讓它有機會被 cache。不是每個字都要精簡到極致,而是要讓重複內容真的重複得起來。

實操寫法:

  • 把靜態指令和使用者變數分開
  • 盡量讓可重用區塊保持 byte-stable
  • 上線後看 cache hit rate,不要只看模型品質

這部分可以直接對照 prompt caching。如果你沒在用,等於每次都在為同樣的字付全價。

Batch 和 flex 是給無聊工作省錢的

gpt-5.5 batch $2.50 input $15.00 output

價格表把 standard、batch、flex、priority 分開列,不是裝飾。它其實是在提醒你:工作型態不同,該付的錢就不同。像 gpt-5.5 的 batch,在短上下文表裡 input 是 $2.50、output 是 $15.00,跟 standard 比起來已經差很多了。

翻譯一下就是,如果你的工作不需要立刻回應,就別硬拿互動式價格。離線摘要、批次分析、報表生成、資料補齊、backfill,這些都很適合 batch。flex 也是同一套邏輯:你能接受排程彈性,通常就能換到比較省的成本。

我看過太多團隊把所有事情都當 chat message 來處理,這真的很浪費。夜間分類任務跟即時客服回覆,本來就不是同一種東西,卻常常被塞進同一個 billing mode。這種架構我只能說,方便是方便,帳單也會很有感。

實操寫法:

  • 非即時任務優先走 batch
  • 可容忍排程波動就考慮 flex
  • priority 留給真的卡住就會出事的路徑

如果你要落地,直接看 batch guideproduction best practices。先把工作分類做好,再談省錢,不然只是猜。

Priority 是你在跟等待成本買單

gpt-5.5 priority $12.50 input $75.00 output

priority pricing 很直接,也很兇。gpt-5.5 在 priority 表裡是 input $12.50、output $75.00。這種價格我不會因為 dashboard 看起來比較順眼就亂開,我只會在「等待本身就是 bug」的時候用它。

白話講,有些 request 的成本不是 token,而是延遲。像是使用者正在等一個即時流程、轉換漏斗卡在那裡、客服回應慢到會讓人直接離開,這時候比較高的價格可能比延遲造成的損失還划算。但前提是,你要真的講得出這個理由。

我之前處理過一條尾延遲很難看的流程,團隊第一個反應就是「那就全上 priority」。我沒同意。先把慢點找出來,能修的修,真的需要高優先的才用。結果成本下來了,系統也沒那麼依賴暴力加價。

實操寫法:

  • 每個 endpoint 先定 latency budget
  • 只對有明確商業影響的路徑用 priority
  • 把「延遲成本」跟「token 成本」一起算

如果你是在做 realtime 或互動式體驗,也可以對照 realtimelatency optimization。不然你很容易把「快」跟「貴」混成同一件事。

Mini 和 nano 才是大多數產品的真正常用款

gpt-5.4-mini $0.75 input $4.50 output
 gpt-5.4-nano $0.20 input $1.25 output

我最信任的,反而常常不是最貴的,而是 mini 跟 nano 這種小模型。OpenAI 在標準表裡列出 gpt-5.4-mini 是 input $0.75、output $4.50;gpt-5.4-nano 更低,input $0.20、output $1.25。這才是大多數產品真的能拿來做大規模使用的區段。

也就是說,如果你的工作只是抽欄位、分類、標註、生成第一版草稿,小模型通常就夠了。你不需要每次都請大模型出馬。小模型的好處不是只有便宜,還有比較容易控、比較容易擴、比較不容易把簡單流程搞成財務災難。

我很常把小模型當前線工人。先做重複、規則性高的工作,真的不確定的 case 再往上升。這種做法很無聊,但很穩,而且穩本身就是一種優勢。

實操寫法:

  • 結構化任務先從 mini 或 nano 開始
  • 只有在信心不足或語意模糊時才升級
  • 不要只看品質,還要一起看 spend

如果你要把小模型用好,structured output 很值得一起看。限制輸出格式後,小模型會變得更像樣。

Realtime 不能照 token 邏輯硬算,要按分鐘和模態拆

gpt-realtime-2 Audio $32.00 input $64.00 output
realtime-translate $0.034 / minute

realtime 這一段把計價邏輯整個換掉了。像 gpt-realtime-2,Audio 是 $32.00 input、$64.00 output per 1M tokens,Text 是 $4.00 input、$24.00 output,Image 也有自己的價格。還有 gpt-realtime-translate 是 $0.034 / minute。這已經不是單純的 token math,而是 usage math。

翻譯一下就是,語音、即時互動、翻譯這些東西,不能拿一般 chat 的心智模型去套。你如果還用同一張表去算文字和語音,算出來的結果常常會很荒謬。因為單位不同,成本結構也不同。

我之前做 voice feature 時就幹過這件蠢事,把語音和文字硬塞進同一個欄位。結果一開始看不出來差異,後來才發現 session length、audio token、text token 根本是三種不同帳。拆開後,預算才像樣。

實操寫法:

  • realtime 先按 session 長度估
  • peak 和 average minutes 分開算
  • 翻譯、語音生成、文字回覆分成不同 cost center

如果你要做實作,邊看 voice agentstranscription,邊算才不會亂。

合規和採購會直接改掉你的數學

Regional processing ... charged a 10% uplift

OpenAI 也寫得很明白:regional processing 對某些符合資料駐留條件的模型,會有 10% uplift。再加上如果你是透過 Amazon Bedrock 這類平台買,帳單又可能跟直連 API 不一樣。這些都不是細節,這些是會讓你預算失真的東西。

白話講,合規不是附加題,它會直接把成本拉高。你如果要資料駐留、要走特定雲端採購、要經過 reseller,最後看到的價格很可能不是公開 pricing page 那一套。這很正常,只是你要早點算進去,不要等財務來問你為什麼 forecast 對不起來。

我看過太多團隊以為公開價格就是最終答案,結果一碰到 enterprise 條件就整個歪掉。地區、採購路徑、平台選擇,這三個東西都會改數字。

實操寫法:

  • 把 direct API 和 reseller pricing 分開記
  • 資料駐留需求要提早標記
  • 預算表裡加一條 compliance uplift

政策面可以先看 Your data。這部分很無聊,但不看會更無聊,因為最後是你去跟採購解釋。

可抄的模板

# OpenAI 成本預算模板

## 1) 先定工作類型
- 工作名稱:
- 這是即時還是非即時:
- 延遲目標:
- 是否需要合規 / 資料駐留:
- 走直連 API 還是 reseller:

## 2) 選執行模式
- Standard / Batch / Flex / Priority / Realtime:
- 為什麼選這個模式:
- 什麼情況下要切換模式:

## 3) 選模型層級
- 主模型:
- 備援模型:
- 升級規則:
- 為什麼主模型夠用:

## 4) 估使用量
- 每日請求數:
- 每次平均 input tokens:
- 每次平均 cached input tokens:
- 每次平均 output tokens:
- 如果是 realtime,平均 session 分鐘:

## 5) 填價格
- 每 1M input tokens 價格:
- 每 1M cached input tokens 價格:
- 每 1M output tokens 價格:
- 每分鐘價格(如果適用):
- regional uplift(如果適用):
- 平台或 reseller 額外加價(如果適用):

## 6) 算月成本
- 月 input tokens = 每日請求數 × 30 × 平均 input tokens
- 月 cached input tokens = 每日請求數 × 30 × 平均 cached input tokens
- 月 output tokens = 每日請求數 × 30 × 平均 output tokens
- 月 realtime 分鐘 = sessions/day × 30 × 平均分鐘數

## 7) 成本公式
- Input cost = 月 input tokens ÷ 1,000,000 × input price
- Cached input cost = 月 cached input tokens ÷ 1,000,000 × cached input price
- Output cost = 月 output tokens ÷ 1,000,000 × output price
- Realtime cost = 月分鐘數 × 每分鐘價格
- Subtotal = 上面全部加總
- Uplift = subtotal × regional uplift(如果需要)
- Total = subtotal + uplift

## 8) 路由規則
- 便宜模型先處理:
- 什麼情況升級到強模型:
- 什麼工作走 batch:
- 什麼工作才准用 priority:
- 什麼工作才准用 realtime:

## 9) 風控
- 月預算上限:
- 警戒線:
- 最大 output tokens:
- 最大 session 長度:
- 檢查頻率:

## 10) 備註
- pricing page:
- 工作說明文件:
- prompt caching / batch 文件:

這份模板我會直接丟給團隊用。它逼你先講工作型態,再講模型,最後才講價格,這樣才不會每次都被「哪個模型最強」帶偏。你如果願意再多做一步,就把第一週的實際成本跟估算值放在同一欄,之後你會很快知道自己是不是在亂猜。

來源:https://developers.openai.com/api/docs/pricing。這篇的拆解是我自己整理的,但價格數字、表格結構和相關模式都來自 OpenAI 官方文件;你真的要拿去做預算,還是得回頭看 live page,因為價格更新這種事,從來不會先通知你。