LlamaStash 把 llama.cpp 帶進終端機
LlamaStash 是一個 Rust 啟動器,把 llama.cpp 包成 TUI、CLI、daemon 和 OpenAI proxy。它主打單一二進位、低延遲、終端機優先,適合本機 LLM 工作流。

LlamaStash 是一個 Rust 啟動器,把 llama.cpp 包成 TUI、CLI、daemon 和 OpenAI proxy。
LlamaStash 的重點很直接。它把本機 LLM 的啟動、管理、代理都收進終端機。單一 Rust binary 大約 5 MB,還不需要改動 llama.cpp 本體。
這種做法很對味。你不用再記一堆旗標,也不用一直切工具。第一版公開版由 Deepu K Sasidharan 在 6 月 2 日釋出,目標就是把本機模型操作變得像下指令一樣直接。
| 項目 | 數值 |
|---|---|
| Binary 大小 | 約 5 MB |
| Proxy 延遲影響 | TTFT 中位數 +0.45 ms |
| Wrapper 與 llama-server 差距 | 在 1% 內 |
| MSRV | Rust 1.95 |
| 測試覆蓋率 | 86.5% |
這個 launcher 很像給終端機重度使用者的工具箱
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
LlamaStash 的定位很清楚。它不是另一個模型服務器,也不是把介面做得很花俏的玩具。它想解的是一個老問題:本機 LLM 很強,但設定流程很煩。

原生 llama.cpp 很快。可是一旦你要手動記 model path、context size、port、GPU runtime,體驗就開始變硬。GUI 工具像 Ollama 和 LM Studio 比較好上手,但不少進階使用者還是想保留底層控制權。
LlamaStash 就卡在中間。它保留 llama.cpp 的原始工作流,再包一層終端機原生控制面。講白了,就是給已經習慣 shell、script、agent 的人用的。你要的是快,不是再學一套新哲學。
- 沒有 patch 過 llama.cpp
- TUI 和 CLI 共用同一套基礎流程
- 支援 OpenAI 相容 proxy
- daemon 可以讓模型常駐
初始化流程把最煩的事先做掉
最實用的地方,是它的 init 流程。你跑 llamastash init 之後,它會先看硬體,再挑合適的 llama-server build。接著它會建議符合 VRAM 的 GGUF 模型,幫你下載,寫好設定,最後還會做一次 smoke test。
這一步很重要。因為本機模型最常死在很無聊的地方。裝錯 build、模型太大、port 被占、設定檔在這台機器能跑,換台就爆。LlamaStash 嘗試把這些雜事收掉,還會掃常見模型目錄,像是 ~/.cache/huggingface/、~/.ollama/models、~/.lmstudio/models。
它對不同硬體也有對應策略。Apple Silicon 走 Metal。AMD 系統可選 ROCm/HIP。NVIDIA Linux 目前先用 Vulkan,CUDA 則寫成 soon。Windows 11 也會對應 CPU、CUDA 或 Vulkan 的 llama.cpp 版本。重點不是炫支援清單,而是少一點手動 glue。
"Rust gives you safety, speed, and a great UX without picking just one." — Deepu K Sasidharan
TUI、CLI、daemon 其實共用同一套規則
LlamaStash 的 TUI 不只是有框的終端機畫面。它有 Vim 風格移動、篩選、分頁切換,還有清楚的快捷鍵說明。右側區塊能看 log、chat、embed、rerank,而且都打同一個 OpenAI 相容 endpoint。

這種設計很實際。你在 TUI 裡跑得通,proxy 通常也會通。這代表介面不是另一個孤島,而是同一個 control plane。你的 editor、agent、script 都能共用它。
CLI 也不是順手包一下而已。它有穩定的 JSON 輸出、明確 exit code、還有適合 shell pipeline 的文字輸出。作者也放了 Agent Skills bundle,讓像 OpenCode 這類工具知道怎麼正確使用它。
llamastash list給人看llamastash list --json給 script 和 agentllamastash start qwen-coder --ctx 16384 --reasoning on可直接啟動llamastash recommend會依硬體建議模型
Proxy 才是它能接進現有工作流的原因
LlamaStash 預設會在 http://127.0.0.1:11435/v1 提供 OpenAI 相容 endpoint。這很重要,因為很多 editor、SDK、CLI client、agent 都已經會講 OpenAI API。你只要改本機位址,就能接上。
它也補了幾個實用細節。模型沒起來時,proxy 可以在第一次請求時自動啟動。啟動失敗時,它還能切到另一個 ready model,並加上 audit headers 說明發生什麼事。它另外支援 Ollama 相容模式,可回應 11434 的常見握手,還有 /api/tags、/api/version 這些 endpoint。
所以它比較像本機 inference switchboard。你可以把它當 OpenAI proxy 用,也可以拿它去模擬一部分 Ollama 行為。第一版的安全邊界也收得很緊,只綁 loopback,不開 LAN,不做 auth。
如果你想看更大的背景,OraCore 也寫過 離線 AI 輔助 Linux 工作流。這類工具都在往同一件事靠攏:把模型留在本機,讓開發流程少碰雲端。
性能數字是這次最值得盯的地方
這版最有說服力的地方,不是介面,而是數字。作者說 LlamaStash 只是啟動未修改過的 upstream llama-server,再把控制層包起來。也就是說,它不是重新寫一個推理核心。
公開 benchmark 顯示,它在 AMD APU、Apple Silicon、NVIDIA 系統上,都跟原生 llama-server 保持在 1% 內。proxy hop 的 median TTFT 只多約 0.45 ms。這種差距很小,但對本機 LLM 來說,體感差很多。你多等幾毫秒,整個節奏就會變怪。
對照起來,重點很簡單:
- 原生 llama-server:基準值
- LlamaStash wrapper:和基準差距在 1% 內
- Proxy 路徑:median TTFT 約多 0.45 ms
- Ollama:作者另有獨立 benchmark 比較
它的工程紀律也不馬虎。作者提到 workspace 有大約 2,000 個 test attributes,line coverage 86.5%,每次 push 都會跑 cargo audit --deny warnings,最低 Rust 版本鎖在 1.95,還會做 cross-compilation 檢查。這對一個原本只是 alias 的工具來說,很硬派。
我覺得這裡透露一個很現實的訊號。Local AI 工具要進日常工作,就不能只像 demo。它得像基礎設施。穩、可預期、可 script,才會有人天天用。
這種工具反映的是本機 AI 工具鏈的成熟
LlamaStash 有趣的地方,在於它沒有刻意堆更多抽象層。它反而把使用者和模型服務器之間的距離縮短。TUI、CLI、daemon、proxy 都回到同一套本機原語,心智負擔就小很多。
這也說明一件事。很多開發者已經不想把本機模型當玩具。它開始進入日常 coding、測試、寫文件、做摘要。當這件事變成習慣,像 LlamaStash 這種 terminal-native launcher 就會更有存在感。
接下來真正要看的是採用率。若更多人把它當成 llama.cpp 的預設入口,那它就不是單純的 launcher,而是把本機 LLM 工作流整理成一套可長期使用的介面。說真的,這比再做一個花俏 UI 實際多了。
我會先觀察它能不能成為預設入口
如果你本來就愛終端機,而且常碰本機模型,LlamaStash 值得試。它最有價值的不是功能數量,而是把 setup、啟動、代理、腳本串在一起。這件事一旦做順,日常使用會差很多。
我的判斷很簡單。這類工具最後比的是兩件事:一是夠不夠穩,二是會不會讓人懶得換回去。LlamaStash 目前看起來兩項都還行,接下來就看社群會不會把它當成真正的預設 front door。