[MODEL] 6 分鐘閱讀OraCore 編輯部

Gemini 3.5 Flash 價格與長上下文解析

Gemini 3.5 Flash 主打 1048576 token 長上下文,API 價格為每百萬輸入 1.50 美元、輸出 9 美元,適合文件、程式碼與 agent 工作流。

分享 LinkedIn
Gemini 3.5 Flash 價格與長上下文解析

Gemini 3.5 Flash 把 1048576 token 長上下文和低價 API 綁在一起,適合文件、程式碼和 agent 工作流。

說真的,這組數字很直接。Gemini 3.5 FlashOpenRouter 上的輸入價是每百萬 token 1.50 美元,輸出價是 9 美元。模型發布日期是 2026 年 5 月 19 日。

它最吸睛的地方,不是名字。是 1,048,576 token 的 context window。這種長度,已經可以直接把大型文件、整個 codebase,甚至多輪對話一起塞進去。對開發者來說,這代表少切 chunk,少做土炮拼接。

如果你在做客服、文件分析、程式碼助理,這顆模型很容易進入成本試算表。因為它不是只會喊口號。它真的把價格和容量都壓到一個能上線的範圍。

指標數值
輸入價格每百萬 token 1.50 美元
輸出價格每百萬 token 9 美元
Context window1,048,576 token
Weekly tokens525B
發布日期2026-05-19

Google 這次在賣什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

GoogleGemini 3.5 Flash 定位成高效率的 multimodal model。官方說法很明確,重點是 coding、reasoning,還有平行 agent loop。白話講,就是要你拿它去跑大量任務,不是只拿來聊天。

Gemini 3.5 Flash 價格與長上下文解析

它支援 text、image、video、audio、PDF。這很實用。因為很多產品現在早就不是純文字。你可能要讀會議錄音,也可能要看截圖,再順手抓 PDF 裡的規格書。這種情境下,單一模型比東拼西湊的流程好維護很多。

另外一個重點是 thinking effort。預設是 medium,還有 minimal、low、medium、high 可選。這不是花俏設定。這是成本控制鈕。簡單任務就別硬開高檔,錢真的會燒很快。

  • 支援輸入:text、image、video、audio、PDF
  • 預設 thinking effort:medium
  • 可調等級:minimal、low、medium、high
  • 官方主打:coding 與 parallel agent loops

價格為什麼重要

每百萬輸入 token 1.50 美元,這個價位很有意思。它讓長上下文任務不再那麼痛。以前很多團隊會因為成本,把文件切得很碎。結果是上下文斷掉,模型回答也跟著飄。

輸出價每百萬 token 9 美元,明顯比輸入貴。這很正常。因為輸出通常代表模型真的在生成內容。講白了,Google 也在提醒你,別把廢話全丟出去。能先摘要,就先摘要。

“The right model is the one that gives you the best quality at the lowest cost.” — Sundar Pichai, Google I/O 2024 keynote

這句話放在這裡剛好。因為 Gemini 3.5 Flash 的核心賣點,不是最貴,也不是最炫。它是在算帳。對產品團隊來說,算帳比喊口號重要得多。

如果你在做大量請求的產品,這種價格結構很關鍵。輸入便宜,代表你可以餵更多背景資料。輸出偏貴,代表你要管好回答長度。這會直接影響你的 prompt 設計。

和其他模型怎麼比

先看同家產品。Gemini 3.5 Pro 會更偏向高階推理。Flash 則是吞吐量和成本優先。兩者差別很像一台重型工作站,跟一台跑量機器。

Gemini 3.5 Flash 價格與長上下文解析

再看平台層。OpenRouter models 把不同供應商放在一起比較。這對開發團隊很實際。你不用一個個去查 API 文件,也不用在每家平台之間重寫一堆整合碼。

1M token context 的意義也很直接。以前很多長文件任務,要先做 chunking,再做 retrieval,再做 rerank。現在有些情境可以少繞幾圈。這不代表 RAG 沒用了。只是工具鏈可以更短。

  • Gemini 3.5 Pro:更偏高階推理
  • Gemini 3.5 Flash:更偏成本與吞吐
  • OpenRouter:可集中比較供應商與價格
  • 1M token context:可減少 chunking 與拼接
  • OpenRouter 列出的 weekly tokens:525B

525B weekly tokens 這個數字也值得看。它代表平台預期有很大的流量,不是只給 benchmark 玩家玩玩。只要模型真的能跑產品,token 消耗會很快上來。

開發者該怎麼看這顆模型

我覺得最實際的問題,不是它能不能看長文件。是它能不能穩定、便宜、反覆地看長文件。這三件事同時成立,模型才會進到 production。

如果你做的是客服助理,長上下文可以把歷史工單一起帶進來。你做的是 code assistant,就能把整個 repo 片段和錯誤 log 一起丟進去。你做的是文件產品,PDF 和圖片也能一起處理。

但別太浪漫。長上下文不等於高品質。模型可能會讀很多東西,卻抓錯重點。這種時候,benchmark 和真實工作流測試就很重要。光看官方宣傳,容易翻車。

對台灣團隊來說,這種模型很適合拿來試高流量場景。像是內部知識庫、法務摘要、客服回覆、程式碼審查。這些場景都很吃 context,也很吃成本。

背景脈絡:Flash 為什麼越來越重要

過去大家談 LLM,常常先看最強模型。現在很多產品團隊反而先看便宜模型。原因很簡單。產品不是 demo。產品要算單位成本,也要算延遲。

Flash 類型模型的價值,就是把夠用的能力壓進可接受的價格。這讓很多原本只能做 PoC 的功能,變成真的能上線。尤其是每天要跑幾十萬次請求的服務,差一點點單價,月底帳單就差很多。

Google 這次把 multimodal、長上下文、agent loop、價格一起包進來,方向很清楚。它不是只想跟別人比參數。它要你真的把模型放進產品流程。

對開發者來說,下一步很簡單。先挑一個真實任務。測 100 筆資料。看準確率、延遲、token 花費。不要只看 demo。demo 很會騙人。

結尾:先拿一個場景去測

如果你正在選模型,我會建議先拿文件摘要或 code review 來試。這兩種任務最容易看出長上下文有沒有真的派上用場。

Gemini 3.5 Flash 的重點很明白。它不是要你重新想像 AI。它是要你用比較低的成本,把更多資料丟進同一個流程裡。接下來真正要看的是,你的產品能不能把這個能力變成穩定功能,而不是一次性的展示。