標籤
llama.cpp
llama.cpp 是把大型語言模型帶到本機與邊緣裝置的推論框架,重點在低記憶體占用、量化、KV cache 管理與啟動速度。相關議題常延伸到 GPU/CPU 混合推論、Rust/CUDA 整合,以及多模態與微調工具鏈的相容性。
15 篇文章

AtomicBot 的 llama.cpp 分支,兩條路都加速
4 項改動看懂 AtomicBot 的 llama.cpp 分支:Gemma 4、Qwen 3.6、TurboQuant KV 與權重壓縮,最快可達 30-50% 吞吐提升。

llama.cpp vs vLLM:本機模型引擎怎麼選
這篇比較 llama.cpp 和 vLLM,幫你判斷是要用 CPU 友善、適合單人本機推理的方案,還是適合多使用者、高併發服務的 GPU 推理引擎。

本機跑 MiniMax M3 的 Unsloth Studio 指南
這篇教你在自己的電腦上安裝 Unsloth Studio、下載 MiniMax M3 的 GGUF 量化檔,並成功開啟本機聊天介面。

llama.cpp 這次又贏了:靠 kernel 收緊,不靠功能堆疊
llama.cpp 的最新版本證明,kernel 修正與 backend 調校,比追逐新功能更能決定本地推理是否真的可用。

LlamaStash 把 llama.cpp 帶進終端機
LlamaStash 是一個 Rust 啟動器,把 llama.cpp 包成 TUI、CLI、daemon 和 OpenAI proxy。它主打單一二進位、低延遲、終端機優先,適合本機 LLM 工作流。

怎麼做 Gemma 4 12B 本地部署
這篇教你確認 Gemma 4 12B 的硬體需求、看懂公開基準,並在本機跑起多模態模型。

怎麼在本機跑 Gemma 4
用 Unsloth Studio 或 llama.cpp 在本機下載、啟動並聊天 Gemma 4。

為什麼 llama.cpp 的 release notes 比模型吹噓更重要
llama.cpp 的最新版本證明,真正拉開速度差距的不是模型宣傳,而是後端正確性、載入器判斷與跨平台調度。

OpenHuman 讓私有 AI 變本機版
我拆 OpenHuman 的私有個人 AI 玩法,順手給你一份可直接貼進 README 的本機部署模板。

為什麼 llama.cpp 應把 TurboQuant 當成新預設路徑
TurboQuant 應成為 llama.cpp 的新預設思路,因為非對稱 KV 壓縮能大幅省記憶體,且不破壞既有相容性。

llama.cpp 把本地推理做進 C/C++
llama.cpp 強調在 C/C++ 中做本地 LLM 推理,支援多種硬體與 OpenAI 相容伺服器,適合離線、邊緣與隱私場景。

5 個 llama.cpp 的 KV cache 重點
5 個重點帶你看懂 llama.cpp 的 KV cache 壓縮、記憶體節省與效能取捨,判斷該追新方法還是先用現有格式。

Unsloth 讓 Qwen3.5 可分層微調
Unsloth 新增 Qwen3.5 視覺模型分層微調,能只訓練 vision、language、attention 或 MLP。VRAM 更省,訓練也更快,對多模態團隊很實用。

TurboQuant 是什麼?Google 新論文重點
Google 的 TurboQuant 盯上 LLM 的 KV cache 瓶頸,用低位元量化降低記憶體用量與推論成本。這篇帶你看它在解什麼問題、和其他優化法差在哪。

TurboQuant、冷啟動與 GPU Rust
TurboQuant 把 KV cache 壓到 4.6 倍,GPU state restore 盯上 32B 模型冷啟動,Rust 也更深入 CUDA 開發。