標籤
2 篇文章
這篇教你確認 Gemma 4 12B 的硬體需求、看懂公開基準,並在本機跑起多模態模型。
TurboQuant 把 KV cache 壓到 4.6 倍,GPU state restore 盯上 32B 模型冷啟動,Rust 也更深入 CUDA 開發。