[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-gemma-4-256k-context-open-models-zh":3,"article-related-gemma-4-256k-context-open-models-zh":33,"series-model-release-1d12108f-e96c-405e-b7fa-2c2527b2797a":82},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":25,"views":29,"created_at":30,"published_at":31,"topic_cluster_id":32},"1d12108f-e96c-405e-b7fa-2c2527b2797a","gemma-4-256k-context-open-models-zh","Gemma 4 把 256K 上下文帶進開放模型","\u003Cp data-speakable=\"summary\">\u003Ca href=\"\u002Ftag\u002Fgoogle\">Google\u003C\u002Fa> 的 Gemma 4 是一組開放權重模型，主打多模態輸入、最高 256K context，還分成五種尺寸給不同部署場景。\u003C\u002Fp>\u003Cp>說真的，這次不是只換個版本號。它把文字、圖片、音訊一起塞進同一條產品線。最大 context 也拉到 256,000 tokens，對長文件和多輪代理流程很有感。\u003C\u002Fp>\u003Cp>更實際的是，\u003Ca href=\"\u002Ftag\u002Fgoogle-deepmind\">Google DeepMind\u003C\u002Fa> 把它拆成五種尺寸。小的給裝置端，大的給工作站和伺服器。這種切法很務實，不會逼大家拿同一顆模型硬打全部場景。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>模型\u003C\u002Fth>\u003Cth>參數\u003C\u002Fth>\u003Cth>Context\u003C\u002Fth>\u003Cth>模態\u003C\u002Fth>\u003Cth>定位\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>E2B\u003C\u002Ftd>\u003Ctd>2.3B effective，5.1B with embeddings\u003C\u002Ftd>\u003Ctd>128K\u003C\u002Ftd>\u003Ctd>文字、圖片、音訊\u003C\u002Ftd>\u003Ctd>裝置端效率優先\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>E4B\u003C\u002Ftd>\u003Ctd>4.5B effective，8B with embeddings\u003C\u002Ftd>\u003Ctd>128K\u003C\u002Ftd>\u003Ctd>文字、圖片、音訊\u003C\u002Ftd>\u003Ctd>小型但支援音訊\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>12B Unified\u003C\u002Ftd>\u003Ctd>11.95B\u003C\u002Ftd>\u003Ctd>256K\u003C\u002Ftd>\u003Ctd>文字、圖片、音訊\u003C\u002Ftd>\u003Ctd>單一解碼器架構\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>26B A4B MoE\u003C\u002Ftd>\u003Ctd>25.2B total，3.8B active\u003C\u002Ftd>\u003Ctd>256K\u003C\u002Ftd>\u003Ctd>文字、圖片\u003C\u002Ftd>\u003Ctd>Mixture-of-experts\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>31B\u003C\u002Ftd>\u003Ctd>30.7B\u003C\u002Ftd>\u003Ctd>256K\u003C\u002Ftd>\u003Ctd>文字、圖片\u003C\u002Ftd>\u003Ctd>家族中最大 dense 模型\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>Gemma 4 的重點是長上下文和多模態\u003C\u002Fh2>\u003Cp>Gemma 4 不是單一模型。它是一個家族。這件事很重要。因為不同產品的需求差很多。手機助理、桌面 coding 工具、文件分析服務，根本不會用同一種部署策略。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781686083209-zhax.png\" alt=\"Gemma 4 把 256K 上下文帶進開放模型\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>小模型像 E2B 和 E4B，重點是速度和記憶體。大一點的 12B、26B A4B、31B，則比較適合 GPU、工作站，或伺服器推論。這種分層，對開發者來說比單點規格更有用。\u003C\u002Fp>\u003Cp>context 也是這次的核心。小模型是 128K，其他幾個版本直接上到 256K。這代表你可以塞長報告、整包 codebase，或很多輪對話，不用一直切碎輸入。老實說，這才是很多團隊真正會碰到的痛點。\u003C\u002Fp>\u003Cul>\u003Cli>E2B 和 E4B 都支援文字、圖片、音訊。\u003C\u002Fli>\u003Cli>12B Unified 是單一架構，三種模態都吃。\u003C\u002Fli>\u003Cli>26B A4B 和 31B 走 256K context。\u003C\u002Fli>\u003Cli>五個尺寸都是 open-weight。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>架構選擇不是裝飾，是成本差\u003C\u002Fh2>\u003Cp>Google 的文件提到，Gemma 4 混用了 dense 和 mixture-of-experts。它還加上 hybrid attention，會在 local sliding-window attention 和 global attention 之間切換。這種設計不是拿來寫簡報的，是拿來決定推論速度和成本的。\u003C\u002Fp>\u003Cp>26B A4B 很能說明問題。它總參數是 25.2B，但推論時只有 3.8B active parameters。意思很直接。它在 runtime 看起來更像小模型，但保留了大模型級別的容量。這對雲端成本很敏感的團隊很有吸引力。\u003C\u002Fp>\u003Cp>小模型還用了 per-layer embeddings。Google 說這有助於裝置端效率。講白了，就是盡量省記憶體，又不要把功能砍爛。這種取捨比單純追大參數實際多了。\u003C\u002Fp>\u003Cblockquote>\u003Cp>“The future of AI is open,” said Demis Hassabis, co-founder and CEO of Google DeepMind, in a 2024 blog post announcing Gemma.\u003C\u002Fp>\u003C\u002Fblockquote>\u003Cp>這句話放在這裡很合理。Gemma 4 延續了 open-weight 路線，但功能已經不是早期那種簡單文字模型。現在它能讀圖，也能聽音訊。Google 顯然想讓開發者能檢查、調整、再部署。\u003C\u002Fp>\u003Ch2>數字比較很清楚，26B A4B 是焦點\u003C\u002Fh2>\u003Cp>這次的 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 很多。看起來有點雜，但其實層次很明顯。31B 通常拿最高分，26B A4B 則常常用更少 active parameters 追得很近。對要算推論成本的團隊，這比單看最高分更重要。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781686086251-65qd.png\" alt=\"Gemma 4 把 256K 上下文帶進開放模型\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>幾個比較值得看的指標如下。這些數字直接反映 reasoning、coding，還有長上下文表現。你如果要做產品選型，這些比行銷詞有用太多。\u003C\u002Fp>\u003Cul>\u003Cli>MMLU Pro：31B 是 85.2%，26B A4B 是 82.6%，12B Unified 是 77.2%。\u003C\u002Fli>\u003Cli>LiveCodeBench v6：31B 是 80.0%，26B A4B 是 77.1%，12B Unified 是 72.0%。\u003C\u002Fli>\u003Cli>Codeforces Elo：31B 是 2150，26B A4B 是 1718，12B Unified 是 1659。\u003C\u002Fli>\u003Cli>MRCR v2 at 128K：31B 是 66.4%，26B A4B 是 44.1%，12B Unified 是 43.4%。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>Codeforces 2150 這個數字很有份量。它代表這家族在 coding 題上不是來湊熱鬧。26B A4B 能把 1659 拉到 1718，也說明 MoE 不是只\u003Ca href=\"\u002Fnews\u002Fvariable-width-transformers-cut-wasted-capacity-zh\">省算力\u003C\u002Fa>，實際表現也有差。\u003C\u002Fp>\u003Cp>不過長上下文檢索就沒那麼平均。從高階模型往下掉，分數差距會變明顯。這很正常，但如果你的場景是整份文件、逐字稿、或 \u003Ca href=\"\u002Fnews\u002Freprorepo-github-issues-reproducibility-audits-zh\">repo\u003C\u002Fa> 級輸入，就要特別看這一項。\u003C\u002Fp>\u003Ch2>開發者真正會拿它做什麼\u003C\u002Fh2>\u003Cp>Gemma 4 的目標不是只有聊天。Google 強調它可以做文字生成、程式設計、推理、function calling，還有多模態理解。它也支援 system role，這對結構化提示詞很有幫助。\u003C\u002Fp>\u003Cp>這件事很務實。很多模型都會喊 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa>，但底層能力沒跟上。Gemma 4 至少把長 context、function calling、system prompt 這\u003Ca href=\"\u002Fnews\u002Farxiv-ai-papers-agents-memory-data-zh\">三件事\u003C\u002Fa>放在一起。對要做助手、審稿、文件分析的人來說，這樣才像樣。\u003C\u002Fp>\u003Cp>如果你在比其他 open-weight 選項，重點就是部署位置。小模型比較適合本機和邊緣裝置。大模型比較適合伺服器端。對已經在用 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002F\" target=\"_blank\" rel=\"noopener\">Hugging Face\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.ollama.com\u002F\" target=\"_blank\" rel=\"noopener\">Ollama\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Flmstudio.ai\u002F\" target=\"_blank\" rel=\"noopener\">LM Studio\u003C\u002Fa> 的團隊，open-weight 會讓測試門檻低很多。\u003C\u002Fp>\u003Cp>Google 也把它接到自己的生態裡，像 \u003Ca href=\"https:\u002F\u002Fdevelopers.googleblog.com\u002F\" target=\"_blank\" rel=\"noopener\">Google Developers Blog\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fdevelopers.google.com\u002Fai\" target=\"_blank\" rel=\"noopener\">Google AI\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fcloud.google.com\u002Fvertex-ai\" target=\"_blank\" rel=\"noopener\">Vertex AI\u003C\u002Fa>。這表示從本機測試到雲端部署，路徑算是接得上。\u003C\u002Fp>\u003Ch2>這不是噱頭，是產品線整理\u003C\u002Fh2>\u003Cp>我覺得 Gemma 4 最有意思的地方，不是某一個單點數字，而是它把產品線整理得很完整。多模態、長上下文、不同規格、開放權重，這幾件事同時到位，才是真的能拿來做產品。\u003C\u002Fp>\u003Cp>如果你在做文件助理、coding \u003Ca href=\"\u002Ftag\u002Fcopilot\">copilot\u003C\u002Fa>、或多模態 agent，現在該問的不是 open model 能不能做，而是哪一顆 Gemma 4 合你的 latency、記憶體和 context budget。這才是工程問題，不是新聞標題。\u003C\u002Fp>\u003Cp>我的判斷很簡單。26B A4B 會先吸引最多開發者，因為它在效果和成本之間抓得不錯。12B Unified 也可能很有市場，因為它同時吃文字、圖片、音訊，架構又相對單純。接下來要看第三方工具跟不跟得上，讓大家真的能快速試到這些模型。\u003C\u002Fp>\u003Cp>如果你是台灣團隊，現在最值得做的事不是先喊採用，而是先挑一個真實工作流。拿 100 份文件、10 小時逐字稿，或一個中型 repo 去跑。數字會比簡報誠實很多。\u003C\u002Fp>","Google DeepMind 的 Gemma 4 加入文字、圖片、音訊輸入，最高 256K context，還提供五種開放權重規格，適合本機與伺服器部署。","ai.google.dev","https:\u002F\u002Fai.google.dev\u002Fgemma\u002Fdocs\u002Fcore\u002Fmodel_card_4",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781686083209-zhax.png","model-release","zh","17a7dc8b-25e4-4993-b0dd-b23733390007",[17,18,19,20,21,22,23,24],"Gemma 4","Google DeepMind","open-weight model","256K context","multimodal AI","LLM","MoE","function calling",[26,27,28],"Gemma 4 把文字、圖片、音訊和最高 256K context 放進同一個開放權重家族。","26B A4B 是最值得注意的型號，因為它用 3.8B active parameters 換到接近大模型的表現。","對開發者來說，Gemma 4 的價值在部署彈性，不是單一 benchmark 分數。",0,"2026-06-17T08:47:34.183175+00:00","2026-06-17T08:47:34.175+00:00","0a3b4f35-7be1-430e-b708-37bdc8b5219a",{"tags":34,"relatedLang":41,"relatedPosts":45},[35,37,39],{"name":17,"slug":36},"gemma-4",{"name":21,"slug":38},"multimodal-ai",{"name":18,"slug":40},"google-deepmind",{"id":15,"slug":42,"title":43,"language":44},"gemma-4-256k-context-open-models-en","Gemma 4 brings 256K context to open models","en",[46,52,58,64,70,76],{"id":47,"slug":48,"title":49,"cover_image":50,"image_url":50,"created_at":51,"category":13},"b07f3920-ad8d-4da9-bdd8-c95ade95fecb","kimi-k2-7-code-api-kimi-code-first-zh","Kimi K2.7 Code 應先上 API 與 Kimi Code，而不是等…","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781631185021-pphd.png","2026-06-16T17:32:22.503702+00:00",{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":13},"3d9b8199-ec8e-43a0-9708-66b9b0cd22fa","kingdom-hearts-iv-confirmed-switch-2-launch-zh","Kingdom Hearts IV 確定登陸 Switch 2","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781615873237-3oot.png","2026-06-16T13:17:24.365738+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":13},"54f5d0f6-8a6b-42c8-927f-607fd67ee912","gemini-3-5-live-translate-rolls-out-70-languages-en-zh","Gemini 3.5 Live Translate 擴至70+語言","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781489873591-592g.png","2026-06-15T02:17:25.888557+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":13},"9c95f760-31c5-4941-8c2e-326e84ebb1df","openai-5-6-model-significant-improvements-zh","OpenAI 5.6 可能比 5.5 強很多","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781460175869-asr5.png","2026-06-14T18:02:29.757479+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":13},"d8a1caad-1c20-4ee8-b8d2-72930280631a","glm-52-open-frontier-ai-for-developers-zh","GLM-5.2把前沿模型变成工具","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781442214340-50f5.png","2026-06-14T13:03:02.867596+00:00",{"id":77,"slug":78,"title":79,"cover_image":80,"image_url":80,"created_at":81,"category":13},"301217b7-5b7f-43ae-8696-f7594351873e","openai-files-ipo-paperwork-scrutiny-grows-zh","OpenAI 準備 IPO，監管壓力同步升高","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781427773647-ad0o.png","2026-06-14T09:02:24.760504+00:00",[83,88,93,98,103,108,113,118,123,128],{"id":84,"slug":85,"title":86,"created_at":87},"58b64033-7eb6-49b9-9aab-01cf8ae1b2f2","nvidia-rubin-six-chips-one-ai-supercomputer-zh","NVIDIA Rubin 把六顆晶片塞進 AI 機櫃","2026-03-26T07:18:45.861277+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"0dcc2c61-c2a6-480d-adb8-dd225fc68914","march-2026-ai-model-news-what-mattered-zh","2026 年 3 月 AI 模型新聞重點","2026-03-26T07:32:08.386348+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"214ab08b-5ce5-4b5c-8b72-47619d8675dd","why-small-models-are-winning-on-device-ai-zh","小模型為何吃下裝置端 AI","2026-03-26T07:36:30.488966+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"785624b2-0355-4b82-adc3-de5e45eecd88","midjourney-v8-faster-images-higher-costs-zh","Midjourney V8 變快了，也變貴了","2026-03-26T07:52:03.562971+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"cda76b92-d209-4134-86c1-a60f5bc7b128","xiaomi-mimo-trio-agents-robots-voice-zh","小米 MiMo 三模型瞄準代理、機器人與語音","2026-03-28T03:05:08.779489+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"9e1044b4-946d-47fe-9e2a-c2ee032e1164","xiaomi-mimo-v2-pro-1t-moe-agents-zh","小米 MiMo-V2-Pro 登場：1T MoE 模型","2026-03-28T03:06:19.002353+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"c4b6186f-bd84-4598-997e-c6e31d543c0d","cursor-composer-2-agentic-coding-model-zh","Cursor Composer 2 走向代理式寫碼","2026-03-28T03:13:06.422716+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"e112e76f-ec3b-408f-810e-e93ae21a888a","apple-siri-gemini-distilled-models-zh","Apple Siri 牽手 Gemini 的真相","2026-03-29T04:52:57.886544+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"c679b51f-194a-463b-87fc-7695256ff752","mimo-v2-pro-vs-omni-vs-flash-2026-zh","MiMo V2 Pro、Omni、Flash 怎麼選","2026-04-02T01:18:43.576128+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"3b988fd7-6749-4f01-ba25-c0ad7486dc31","z-ai-glm-5v-turbo-design2code-claude-zh","GLM-5V-Turbo 在 Design2Code 贏了…","2026-04-02T04:03:36.31741+00:00"]