Gemini 3.5 Flash 價格與長上下文解析

OraCore Editors

返回首頁

[MODEL] 2026年6月7日6 分鐘閱讀OraCore 編輯部

Gemini 3.5 Flash 價格與長上下文解析

Gemini 3.5 Flash 主打 1048576 token 長上下文，API 價格為每百萬輸入 1.50 美元、輸出 9 美元，適合文件、程式碼與 agent 工作流。

Google Gemini OpenRouter Gemini 3.5 Flash LLM pricing long context

分享 LinkedIn

Gemini 3.5 Flash 把 1048576 token 長上下文和低價 API 綁在一起，適合文件、程式碼和 agent 工作流。

說真的，這組數字很直接。Gemini 3.5 Flash 在 OpenRouter 上的輸入價是每百萬 token 1.50 美元，輸出價是 9 美元。模型發布日期是 2026 年 5 月 19 日。

它最吸睛的地方，不是名字。是 1,048,576 token 的 context window。這種長度，已經可以直接把大型文件、整個 codebase，甚至多輪對話一起塞進去。對開發者來說，這代表少切 chunk，少做土炮拼接。

如果你在做客服、文件分析、程式碼助理，這顆模型很容易進入成本試算表。因為它不是只會喊口號。它真的把價格和容量都壓到一個能上線的範圍。

指標	數值
輸入價格	每百萬 token 1.50 美元
輸出價格	每百萬 token 9 美元
Context window	1,048,576 token
Weekly tokens	525B
發布日期	2026-05-19

Google 這次在賣什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

Google 把 Gemini 3.5 Flash 定位成高效率的 multimodal model。官方說法很明確，重點是 coding、reasoning，還有平行 agent loop。白話講，就是要你拿它去跑大量任務，不是只拿來聊天。

它支援 text、image、video、audio、PDF。這很實用。因為很多產品現在早就不是純文字。你可能要讀會議錄音，也可能要看截圖，再順手抓 PDF 裡的規格書。這種情境下，單一模型比東拼西湊的流程好維護很多。

另外一個重點是 thinking effort。預設是 medium，還有 minimal、low、medium、high 可選。這不是花俏設定。這是成本控制鈕。簡單任務就別硬開高檔，錢真的會燒很快。

支援輸入：text、image、video、audio、PDF
預設 thinking effort：medium
可調等級：minimal、low、medium、high
官方主打：coding 與 parallel agent loops

價格為什麼重要

每百萬輸入 token 1.50 美元，這個價位很有意思。它讓長上下文任務不再那麼痛。以前很多團隊會因為成本，把文件切得很碎。結果是上下文斷掉，模型回答也跟著飄。

輸出價每百萬 token 9 美元，明顯比輸入貴。這很正常。因為輸出通常代表模型真的在生成內容。講白了，Google 也在提醒你，別把廢話全丟出去。能先摘要，就先摘要。

“The right model is the one that gives you the best quality at the lowest cost.” — Sundar Pichai, Google I/O 2024 keynote

這句話放在這裡剛好。因為 Gemini 3.5 Flash 的核心賣點，不是最貴，也不是最炫。它是在算帳。對產品團隊來說，算帳比喊口號重要得多。

如果你在做大量請求的產品，這種價格結構很關鍵。輸入便宜，代表你可以餵更多背景資料。輸出偏貴，代表你要管好回答長度。這會直接影響你的 prompt 設計。

和其他模型怎麼比

先看同家產品。Gemini 3.5 Pro 會更偏向高階推理。Flash 則是吞吐量和成本優先。兩者差別很像一台重型工作站，跟一台跑量機器。

再看平台層。OpenRouter models 把不同供應商放在一起比較。這對開發團隊很實際。你不用一個個去查 API 文件，也不用在每家平台之間重寫一堆整合碼。

1M token context 的意義也很直接。以前很多長文件任務，要先做 chunking，再做 retrieval，再做 rerank。現在有些情境可以少繞幾圈。這不代表 RAG 沒用了。只是工具鏈可以更短。

Gemini 3.5 Pro：更偏高階推理
Gemini 3.5 Flash：更偏成本與吞吐
OpenRouter：可集中比較供應商與價格
1M token context：可減少 chunking 與拼接
OpenRouter 列出的 weekly tokens：525B

525B weekly tokens 這個數字也值得看。它代表平台預期有很大的流量，不是只給 benchmark 玩家玩玩。只要模型真的能跑產品，token 消耗會很快上來。

開發者該怎麼看這顆模型

我覺得最實際的問題，不是它能不能看長文件。是它能不能穩定、便宜、反覆地看長文件。這三件事同時成立，模型才會進到 production。

如果你做的是客服助理，長上下文可以把歷史工單一起帶進來。你做的是 code assistant，就能把整個 repo 片段和錯誤 log 一起丟進去。你做的是文件產品，PDF 和圖片也能一起處理。

但別太浪漫。長上下文不等於高品質。模型可能會讀很多東西，卻抓錯重點。這種時候，benchmark 和真實工作流測試就很重要。光看官方宣傳，容易翻車。

對台灣團隊來說，這種模型很適合拿來試高流量場景。像是內部知識庫、法務摘要、客服回覆、程式碼審查。這些場景都很吃 context，也很吃成本。

背景脈絡：Flash 為什麼越來越重要

過去大家談 LLM，常常先看最強模型。現在很多產品團隊反而先看便宜模型。原因很簡單。產品不是 demo。產品要算單位成本，也要算延遲。

Flash 類型模型的價值，就是把夠用的能力壓進可接受的價格。這讓很多原本只能做 PoC 的功能，變成真的能上線。尤其是每天要跑幾十萬次請求的服務，差一點點單價，月底帳單就差很多。

Google 這次把 multimodal、長上下文、agent loop、價格一起包進來，方向很清楚。它不是只想跟別人比參數。它要你真的把模型放進產品流程。

對開發者來說，下一步很簡單。先挑一個真實任務。測 100 筆資料。看準確率、延遲、token 花費。不要只看 demo。demo 很會騙人。

結尾：先拿一個場景去測

如果你正在選模型，我會建議先拿文件摘要或 code review 來試。這兩種任務最容易看出長上下文有沒有真的派上用場。

Gemini 3.5 Flash 的重點很明白。它不是要你重新想像 AI。它是要你用比較低的成本，把更多資料丟進同一個流程裡。接下來真正要看的是，你的產品能不能把這個能力變成穩定功能，而不是一次性的展示。

// 相關文章

Gemini 3.5 Flash 價格與長上下文解析

Google 這次在賣什麼

訂閱 AI 趨勢週報

價格為什麼重要

和其他模型怎麼比

開發者該怎麼看這顆模型

背景脈絡：Flash 為什麼越來越重要

結尾：先拿一個場景去測

怎麼做 Gemma 4 12B 本地部署

2026 最佳 Kimi 模型：K2.5 對 K2 Thinking

Kimi K2.6 開源加上 Agent Swarm

MiniMax M3：開源三合一模型

為什麼 MiniMax M3 比又一個長上下文模型更重要

MiniMax M3 讓工程師工作流更像代理