[TOOLS] 7 分鐘閱讀OraCore 編輯部

LlamaStash 把 llama.cpp 帶進終端機

LlamaStash 是一個 Rust 啟動器,把 llama.cpp 包成 TUI、CLI、daemon 和 OpenAI proxy。它主打單一二進位、低延遲、終端機優先,適合本機 LLM 工作流。

分享 LinkedIn
LlamaStash 把 llama.cpp 帶進終端機

LlamaStash 是一個 Rust 啟動器,把 llama.cpp 包成 TUI、CLI、daemon 和 OpenAI proxy。

LlamaStash 的重點很直接。它把本機 LLM 的啟動、管理、代理都收進終端機。單一 Rust binary 大約 5 MB,還不需要改動 llama.cpp 本體。

這種做法很對味。你不用再記一堆旗標,也不用一直切工具。第一版公開版由 Deepu K Sasidharan 在 6 月 2 日釋出,目標就是把本機模型操作變得像下指令一樣直接。

項目數值
Binary 大小約 5 MB
Proxy 延遲影響TTFT 中位數 +0.45 ms
Wrapper 與 llama-server 差距在 1% 內
MSRVRust 1.95
測試覆蓋率86.5%

這個 launcher 很像給終端機重度使用者的工具箱

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

LlamaStash 的定位很清楚。它不是另一個模型服務器,也不是把介面做得很花俏的玩具。它想解的是一個老問題:本機 LLM 很強,但設定流程很煩。

LlamaStash 把 llama.cpp 帶進終端機

原生 llama.cpp 很快。可是一旦你要手動記 model path、context size、port、GPU runtime,體驗就開始變硬。GUI 工具像 OllamaLM Studio 比較好上手,但不少進階使用者還是想保留底層控制權。

LlamaStash 就卡在中間。它保留 llama.cpp 的原始工作流,再包一層終端機原生控制面。講白了,就是給已經習慣 shell、script、agent 的人用的。你要的是快,不是再學一套新哲學。

  • 沒有 patch 過 llama.cpp
  • TUI 和 CLI 共用同一套基礎流程
  • 支援 OpenAI 相容 proxy
  • daemon 可以讓模型常駐

初始化流程把最煩的事先做掉

最實用的地方,是它的 init 流程。你跑 llamastash init 之後,它會先看硬體,再挑合適的 llama-server build。接著它會建議符合 VRAM 的 GGUF 模型,幫你下載,寫好設定,最後還會做一次 smoke test。

這一步很重要。因為本機模型最常死在很無聊的地方。裝錯 build、模型太大、port 被占、設定檔在這台機器能跑,換台就爆。LlamaStash 嘗試把這些雜事收掉,還會掃常見模型目錄,像是 ~/.cache/huggingface/~/.ollama/models~/.lmstudio/models

它對不同硬體也有對應策略。Apple Silicon 走 Metal。AMD 系統可選 ROCm/HIP。NVIDIA Linux 目前先用 Vulkan,CUDA 則寫成 soon。Windows 11 也會對應 CPU、CUDA 或 Vulkan 的 llama.cpp 版本。重點不是炫支援清單,而是少一點手動 glue。

"Rust gives you safety, speed, and a great UX without picking just one." — Deepu K Sasidharan

TUI、CLI、daemon 其實共用同一套規則

LlamaStash 的 TUI 不只是有框的終端機畫面。它有 Vim 風格移動、篩選、分頁切換,還有清楚的快捷鍵說明。右側區塊能看 log、chat、embed、rerank,而且都打同一個 OpenAI 相容 endpoint。

LlamaStash 把 llama.cpp 帶進終端機

這種設計很實際。你在 TUI 裡跑得通,proxy 通常也會通。這代表介面不是另一個孤島,而是同一個 control plane。你的 editor、agent、script 都能共用它。

CLI 也不是順手包一下而已。它有穩定的 JSON 輸出、明確 exit code、還有適合 shell pipeline 的文字輸出。作者也放了 Agent Skills bundle,讓像 OpenCode 這類工具知道怎麼正確使用它。

  • llamastash list 給人看
  • llamastash list --json 給 script 和 agent
  • llamastash start qwen-coder --ctx 16384 --reasoning on 可直接啟動
  • llamastash recommend 會依硬體建議模型

Proxy 才是它能接進現有工作流的原因

LlamaStash 預設會在 http://127.0.0.1:11435/v1 提供 OpenAI 相容 endpoint。這很重要,因為很多 editor、SDK、CLI client、agent 都已經會講 OpenAI API。你只要改本機位址,就能接上。

它也補了幾個實用細節。模型沒起來時,proxy 可以在第一次請求時自動啟動。啟動失敗時,它還能切到另一個 ready model,並加上 audit headers 說明發生什麼事。它另外支援 Ollama 相容模式,可回應 11434 的常見握手,還有 /api/tags/api/version 這些 endpoint。

所以它比較像本機 inference switchboard。你可以把它當 OpenAI proxy 用,也可以拿它去模擬一部分 Ollama 行為。第一版的安全邊界也收得很緊,只綁 loopback,不開 LAN,不做 auth。

如果你想看更大的背景,OraCore 也寫過 離線 AI 輔助 Linux 工作流。這類工具都在往同一件事靠攏:把模型留在本機,讓開發流程少碰雲端。

性能數字是這次最值得盯的地方

這版最有說服力的地方,不是介面,而是數字。作者說 LlamaStash 只是啟動未修改過的 upstream llama-server,再把控制層包起來。也就是說,它不是重新寫一個推理核心。

公開 benchmark 顯示,它在 AMD APU、Apple Silicon、NVIDIA 系統上,都跟原生 llama-server 保持在 1% 內。proxy hop 的 median TTFT 只多約 0.45 ms。這種差距很小,但對本機 LLM 來說,體感差很多。你多等幾毫秒,整個節奏就會變怪。

對照起來,重點很簡單:

  • 原生 llama-server:基準值
  • LlamaStash wrapper:和基準差距在 1% 內
  • Proxy 路徑:median TTFT 約多 0.45 ms
  • Ollama:作者另有獨立 benchmark 比較

它的工程紀律也不馬虎。作者提到 workspace 有大約 2,000 個 test attributes,line coverage 86.5%,每次 push 都會跑 cargo audit --deny warnings,最低 Rust 版本鎖在 1.95,還會做 cross-compilation 檢查。這對一個原本只是 alias 的工具來說,很硬派。

我覺得這裡透露一個很現實的訊號。Local AI 工具要進日常工作,就不能只像 demo。它得像基礎設施。穩、可預期、可 script,才會有人天天用。

這種工具反映的是本機 AI 工具鏈的成熟

LlamaStash 有趣的地方,在於它沒有刻意堆更多抽象層。它反而把使用者和模型服務器之間的距離縮短。TUI、CLI、daemon、proxy 都回到同一套本機原語,心智負擔就小很多。

這也說明一件事。很多開發者已經不想把本機模型當玩具。它開始進入日常 coding、測試、寫文件、做摘要。當這件事變成習慣,像 LlamaStash 這種 terminal-native launcher 就會更有存在感。

接下來真正要看的是採用率。若更多人把它當成 llama.cpp 的預設入口,那它就不是單純的 launcher,而是把本機 LLM 工作流整理成一套可長期使用的介面。說真的,這比再做一個花俏 UI 實際多了。

我會先觀察它能不能成為預設入口

如果你本來就愛終端機,而且常碰本機模型,LlamaStash 值得試。它最有價值的不是功能數量,而是把 setup、啟動、代理、腳本串在一起。這件事一旦做順,日常使用會差很多。

我的判斷很簡單。這類工具最後比的是兩件事:一是夠不夠穩,二是會不會讓人懶得換回去。LlamaStash 目前看起來兩項都還行,接下來就看社群會不會把它當成真正的預設 front door。