標籤

Gemma 4

Gemma 4 是 Google 的開放權重模型系列，重點在長上下文、多模態與雲端部署彈性。它支援 256K context、vision、audio 與 Apache 2.0 授權，適合關注 Vertex AI、Cloud Run、GKE 和 TPU 的開發者。

6 篇文章

AtomicBot 的 llama.cpp 分支，兩條路都加速

4 項改動看懂 AtomicBot 的 llama.cpp 分支：Gemma 4、Qwen 3.6、TurboQuant KV 與權重壓縮，最快可達 30-50% 吞吐提升。

Google DeepMind 的 Gemma 4 加入文字、圖片、音訊輸入，最高 256K context，還提供五種開放權重規格，適合本機與伺服器部署。

用 Unsloth Studio 或 llama.cpp 在本機下載、啟動並聊天 Gemma 4。

Gemma 4 的 E2B 與 E4B 助手模型用 centroid masking，把草稿 token 的 lm_head 計算量砍到約 45 倍，且品質損失很小。

Gemma 4 進入 Google Cloud，支援 256K context、vision、audio 與 Apache 2.0 授權，還能跑在 Vertex AI、Cloud Run、GKE 與 TPU 上。

AIME 2026 排行榜只有 8 個模型，但分數差很大。Qwen3.6 Plus 以 0.953 領先，最低只有 0.375。這份數學基準很適合看 LLM 的推理穩定度。