標籤

llama.cpp

llama.cpp 是把大型語言模型帶到本機與邊緣裝置的推論框架，重點在低記憶體占用、量化、KV cache 管理與啟動速度。相關議題常延伸到 GPU/CPU 混合推論、Rust/CUDA 整合，以及多模態與微調工具鏈的相容性。

15 篇文章

AtomicBot 的 llama.cpp 分支，兩條路都加速

4 項改動看懂 AtomicBot 的 llama.cpp 分支：Gemma 4、Qwen 3.6、TurboQuant KV 與權重壓縮，最快可達 30-50% 吞吐提升。

這篇比較 llama.cpp 和 vLLM，幫你判斷是要用 CPU 友善、適合單人本機推理的方案，還是適合多使用者、高併發服務的 GPU 推理引擎。

這篇教你在自己的電腦上安裝 Unsloth Studio、下載 MiniMax M3 的 GGUF 量化檔，並成功開啟本機聊天介面。

llama.cpp 的最新版本證明，kernel 修正與 backend 調校，比追逐新功能更能決定本地推理是否真的可用。

LlamaStash 是一個 Rust 啟動器，把 llama.cpp 包成 TUI、CLI、daemon 和 OpenAI proxy。它主打單一二進位、低延遲、終端機優先，適合本機 LLM 工作流。

這篇教你確認 Gemma 4 12B 的硬體需求、看懂公開基準，並在本機跑起多模態模型。

用 Unsloth Studio 或 llama.cpp 在本機下載、啟動並聊天 Gemma 4。

llama.cpp 的最新版本證明，真正拉開速度差距的不是模型宣傳，而是後端正確性、載入器判斷與跨平台調度。

我拆 OpenHuman 的私有個人 AI 玩法，順手給你一份可直接貼進 README 的本機部署模板。

TurboQuant 應成為 llama.cpp 的新預設思路，因為非對稱 KV 壓縮能大幅省記憶體，且不破壞既有相容性。

llama.cpp 強調在 C/C++ 中做本地 LLM 推理，支援多種硬體與 OpenAI 相容伺服器，適合離線、邊緣與隱私場景。

5 個重點帶你看懂 llama.cpp 的 KV cache 壓縮、記憶體節省與效能取捨，判斷該追新方法還是先用現有格式。

Unsloth 新增 Qwen3.5 視覺模型分層微調，能只訓練 vision、language、attention 或 MLP。VRAM 更省，訓練也更快，對多模態團隊很實用。

Google 的 TurboQuant 盯上 LLM 的 KV cache 瓶頸，用低位元量化降低記憶體用量與推論成本。這篇帶你看它在解什麼問題、和其他優化法差在哪。

TurboQuant 把 KV cache 壓到 4.6 倍，GPU state restore 盯上 32B 模型冷啟動，Rust 也更深入 CUDA 開發。