[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-llamastash-terminal-native-llamacpp-launcher-zh":3,"article-related-llamastash-terminal-native-llamacpp-launcher-zh":34,"series-tools-813c149e-04fb-42c9-a1d8-89ae2f46f66c":83},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":25,"views":30,"created_at":31,"published_at":32,"topic_cluster_id":33},"813c149e-04fb-42c9-a1d8-89ae2f46f66c","llamastash-terminal-native-llamacpp-launcher-zh","LlamaStash 把 llama.cpp 帶進終端機","\u003Cp data-speakable=\"summary\">LlamaStash 是一個 Rust 啟動器，把 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fllama.cpp\" target=\"_blank\" rel=\"noopener\">llama.cpp\u003C\u002Fa> \u003Ca href=\"\u002Fnews\u002Fnvidia-blueprints-nim-apis-builders-zh\">包成\u003C\u002Fa> TUI、CLI、daemon 和 \u003Ca href=\"\u002Ftag\u002Fopenai\">OpenAI\u003C\u002Fa> proxy。\u003C\u002Fp>\u003Cp>LlamaStash 的重點很直接。它把本機 LLM 的啟動、管理、\u003Ca href=\"\u002Fnews\u002Fomnigamearena-vlm-game-agent-benchmark-zh\">代理\u003C\u002Fa>都收進終端機。單一 Rust binary 大約 5 MB，還不需要改動 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fllama.cpp\" target=\"_blank\" rel=\"noopener\">llama.cpp\u003C\u002Fa> 本體。\u003C\u002Fp>\u003Cp>這種做法很對味。你不用再記一堆旗標，也不用一直切工具。第一版公開版由 \u003Ca href=\"https:\u002F\u002Fdeepu.tech\" target=\"_blank\" rel=\"noopener\">Deepu K Sasidharan\u003C\u002Fa> 在 6 月 2 日釋出，目標就是把本機模型操作變得像下指令一樣直接。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>項目\u003C\u002Fth>\u003Cth>數值\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>Binary 大小\u003C\u002Ftd>\u003Ctd>約 5 MB\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Proxy 延遲影響\u003C\u002Ftd>\u003Ctd>TTFT 中位數 +0.45 ms\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Wrapper 與 llama-server 差距\u003C\u002Ftd>\u003Ctd>在 1% 內\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>MSRV\u003C\u002Ftd>\u003Ctd>Rust 1.95\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>測試覆蓋率\u003C\u002Ftd>\u003Ctd>86.5%\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>這個 launcher 很像給終端機重度使用者的工具箱\u003C\u002Fh2>\u003Cp>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fdeepu105\u002Fllamastash\" target=\"_blank\" rel=\"noopener\">LlamaStash\u003C\u002Fa> 的定位很清楚。它不是另一個模型服務器，也不是把介面做得很花俏的玩具。它想解的是一個老問題：本機 LLM 很強，但設定流程很煩。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780993095245-e3v2.png\" alt=\"LlamaStash 把 llama.cpp 帶進終端機\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>原生 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fllama.cpp\" target=\"_blank\" rel=\"noopener\">llama.cpp\u003C\u002Fa> 很快。可是一旦你要手動記 model path、context size、port、GPU runtime，體驗就開始變硬。GUI 工具像 \u003Ca href=\"https:\u002F\u002Follama.com\" target=\"_blank\" rel=\"noopener\">Ollama\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Flmstudio.ai\" target=\"_blank\" rel=\"noopener\">LM Studio\u003C\u002Fa> 比較好上手，但不少進階使用者還是想保留底層控制權。\u003C\u002Fp>\u003Cp>LlamaStash 就卡在中間。它保留 llama.cpp 的原始工作流，再包一層終端機原生控制面。講白了，就是給已經習慣 shell、script、agent 的人用的。你要的是快，不是再學一套新哲學。\u003C\u002Fp>\u003Cul>\u003Cli>沒有 patch 過 llama.cpp\u003C\u002Fli>\u003Cli>TUI 和 CLI 共用同一套基礎流程\u003C\u002Fli>\u003Cli>支援 OpenAI 相容 proxy\u003C\u002Fli>\u003Cli>daemon 可以讓模型常駐\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>初始化流程把最煩的事先做掉\u003C\u002Fh2>\u003Cp>最實用的地方，是它的 init 流程。你跑 \u003Ccode>llamastash init\u003C\u002Fcode> 之後，它會先看硬體，再挑合適的 llama-server build。接著它會建議符合 VRAM 的 GGUF 模型，幫你下載，寫好設定，最後還會做一次 smoke test。\u003C\u002Fp>\u003Cp>這一步很重要。因為本機模型最常死在很無聊的地方。裝錯 build、模型太大、port 被占、設定檔在這台機器能跑，換台就爆。LlamaStash 嘗試把這些雜事收掉，還會掃常見模型目錄，像是 \u003Ccode>~\u002F.cache\u002Fhuggingface\u002F\u003C\u002Fcode>、\u003Ccode>~\u002F.ollama\u002Fmodels\u003C\u002Fcode>、\u003Ccode>~\u002F.lmstudio\u002Fmodels\u003C\u002Fcode>。\u003C\u002Fp>\u003Cp>它對不同硬體也有對應策略。Apple Silicon 走 Metal。AMD 系統可選 ROCm\u002FHIP。\u003Ca href=\"\u002Ftag\u002Fnvidia\">NVIDIA\u003C\u002Fa> Linux 目前先用 Vulkan，CUDA 則寫成 soon。Windows 11 也會對應 CPU、CUDA 或 Vulkan 的 llama.cpp 版本。重點不是炫支援清單，而是少一點手動 glue。\u003C\u002Fp>\u003Cblockquote>\"Rust gives you safety, speed, and a great UX without picking just one.\" — Deepu K Sasidharan\u003C\u002Fblockquote>\u003Ch2>TUI、CLI、daemon 其實共用同一套規則\u003C\u002Fh2>\u003Cp>LlamaStash 的 TUI 不只是有框的終端機畫面。它有 Vim 風格移動、篩選、分頁切換，還有清楚的快捷鍵說明。右側區塊能看 log、chat、embed、rerank，而且都打同一個 OpenAI 相容 endpoint。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780993092790-rf5m.png\" alt=\"LlamaStash 把 llama.cpp 帶進終端機\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這種設計很實際。你在 TUI 裡跑得通，proxy 通常也會通。這代表介面不是另一個孤島，而是同一個 control plane。你的 editor、agent、script 都能共用它。\u003C\u002Fp>\u003Cp>CLI 也不是順手包一下而已。它有穩定的 JSON 輸出、明確 exit code、還有適合 shell pipeline 的文字輸出。作者也放了 Agent \u003Ca href=\"\u002Ftag\u002Fskills\">Skills\u003C\u002Fa> bundle，讓像 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fsst\u002Fopencode\" target=\"_blank\" rel=\"noopener\">OpenCode\u003C\u002Fa> 這類工具知道怎麼正確使用它。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Ccode>llamastash list\u003C\u002Fcode> 給人看\u003C\u002Fli>\u003Cli>\u003Ccode>llamastash list --json\u003C\u002Fcode> 給 script 和 agent\u003C\u002Fli>\u003Cli>\u003Ccode>llamastash start qwen-coder --ctx 16384 --reasoning on\u003C\u002Fcode> 可直接啟動\u003C\u002Fli>\u003Cli>\u003Ccode>llamastash recommend\u003C\u002Fcode> 會依硬體建議模型\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>Proxy 才是它能接進現有工作流的原因\u003C\u002Fh2>\u003Cp>LlamaStash 預設會在 \u003Ccode>http:\u002F\u002F127.0.0.1:11435\u002Fv1\u003C\u002Fcode> 提供 OpenAI 相容 endpoint。這很重要，因為很多 editor、SDK、CLI client、agent 都已經會講 OpenAI API。你只要改本機位址，就能接上。\u003C\u002Fp>\u003Cp>它也補了幾個實用細節。模型沒起來時，proxy 可以在第一次請求時自動啟動。啟動失敗時，它還能切到另一個 ready model，並加上 audit headers 說明發生什麼事。它另外支援 Ollama 相容模式，可回應 \u003Ccode>11434\u003C\u002Fcode> 的常見握手，還有 \u003Ccode>\u002Fapi\u002Ftags\u003C\u002Fcode>、\u003Ccode>\u002Fapi\u002Fversion\u003C\u002Fcode> 這些 endpoint。\u003C\u002Fp>\u003Cp>所以它比較像本機 \u003Ca href=\"\u002Ftag\u002Finference\">inference\u003C\u002Fa> switchboard。你可以把它當 OpenAI proxy 用，也可以拿它去模擬一部分 Ollama 行為。第一版的安全邊界也收得很緊，只綁 loopback，不開 LAN，不做 auth。\u003C\u002Fp>\u003Cp>如果你想看更大的背景，OraCore 也寫過 \u003Ca href=\"\u002Fnews\u002Ffully-offline-ai-assisted-linux-development-machine\" target=\"_blank\" rel=\"noopener\">離線 AI 輔助 Linux 工作流\u003C\u002Fa>。這類工具都在往同一件事靠攏：把模型留在本機，讓開發流程少碰雲端。\u003C\u002Fp>\u003Ch2>性能數字是這次最值得盯的地方\u003C\u002Fh2>\u003Cp>這版最有說服力的地方，不是介面，而是數字。作者說 LlamaStash 只是啟動未修改過的 upstream llama-server，再把控制層包起來。也就是說，它不是重新寫一個推理核心。\u003C\u002Fp>\u003Cp>公開 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 顯示，它在 AMD APU、Apple Silicon、NVIDIA 系統上，都跟原生 llama-server 保持在 1% 內。proxy hop 的 median TTFT 只多約 0.45 ms。這種差距很小，但對本機 LLM 來說，體感差很多。你多等幾毫秒，整個節奏就會變怪。\u003C\u002Fp>\u003Cp>對照起來，重點很簡單：\u003C\u002Fp>\u003Cul>\u003Cli>原生 llama-server：基準值\u003C\u002Fli>\u003Cli>LlamaStash wrapper：和基準差距在 1% 內\u003C\u002Fli>\u003Cli>Proxy 路徑：median TTFT 約多 0.45 ms\u003C\u002Fli>\u003Cli>Ollama：作者另有獨立 benchmark 比較\u003C\u002Fli>\u003C\u002Ful>\u003Cp>它的工程紀律也不馬虎。作者提到 workspace 有大約 2,000 個 test attributes，line coverage 86.5%，每次 push 都會跑 \u003Ccode>cargo audit --deny warnings\u003C\u002Fcode>，最低 Rust 版本鎖在 1.95，還會做 cross-compilation 檢查。這對一個原本只是 alias 的工具來說，很硬派。\u003C\u002Fp>\u003Cp>我覺得這裡透露一個很現實的訊號。Local AI 工具要進日常工作，就不能只像 demo。它得像基礎設施。穩、可預期、可 script，才會有人天天用。\u003C\u002Fp>\u003Ch2>這種工具反映的是本機 AI 工具鏈的成熟\u003C\u002Fh2>\u003Cp>LlamaStash 有趣的地方，在於它沒有刻意堆更多抽象層。它反而把使用者和模型服務器之間的距離縮短。TUI、CLI、daemon、proxy 都回到同一套本機原語，心智負擔就小很多。\u003C\u002Fp>\u003Cp>這也說明一件事。很多開發者已經不想把本機模型當玩具。它開始進入日常 coding、測試、寫文件、做摘要。當這件事變成習慣，像 LlamaStash 這種 terminal-native launcher 就會更有存在感。\u003C\u002Fp>\u003Cp>接下來真正要看的是採用率。若更多人把它當成 llama.cpp 的預設入口，那它就不是單純的 launcher，而是把本機 LLM 工作流整理成一套可長期使用的介面。說真的，這比再做一個花俏 UI 實際多了。\u003C\u002Fp>\u003Ch2>我會先觀察它能不能成為預設入口\u003C\u002Fh2>\u003Cp>如果你本來就愛終端機，而且常碰本機模型，LlamaStash 值得試。它最有價值的不是功能數量，而是把 setup、啟動、\u003Ca href=\"\u002Fnews\u002Fai-agents-use-blockchain-trust-layer-zh\">代理\u003C\u002Fa>、腳本串在一起。這件事一旦做順，日常使用會差很多。\u003C\u002Fp>\u003Cp>我的判斷很簡單。這類工具最後比的是兩件事：一是夠不夠穩，二是會不會讓人懶得換回去。LlamaStash 目前看起來兩項都還行，接下來就看社群會不會把它當成真正的預設 front door。\u003C\u002Fp>","LlamaStash 是一個 Rust 啟動器，把 llama.cpp 包成 TUI、CLI、daemon 和 OpenAI proxy。它主打單一二進位、低延遲、終端機優先，適合本機 LLM 工作流。","dev.to","https:\u002F\u002Fdev.to\u002Fdeepu105\u002Fintroducing-llamastash-a-zero-overhead-terminal-native-llamacpp-launcher-4d2g",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780993095245-e3v2.png","tools","zh","1dd15977-9e00-4b92-ad7f-750ac7b9f3c4",[17,18,19,20,21,22,23,24],"LlamaStash","llama.cpp","Rust","本機 LLM","OpenAI proxy","終端機工具","TUI","CLI",[26,27,28,29],"LlamaStash 把 llama.cpp 包成 TUI、CLI、daemon 和 OpenAI proxy。","它主打單一 Rust binary，約 5 MB，且 wrapper 延遲很低。","初始化流程會自動偵測硬體、下載模型、寫設定。","OpenAI 相容 endpoint 讓它容易接進現有 editor 和 agent。",0,"2026-06-09T08:17:43.665329+00:00","2026-06-09T08:17:43.658+00:00","c3c88dd2-a940-438a-b359-0e5a24562273",{"tags":35,"relatedLang":11,"relatedPosts":46},[36,38,40,42,44],{"name":19,"slug":37},"rust",{"name":17,"slug":39},"llamastash",{"name":20,"slug":41},"本機-llm",{"name":21,"slug":43},"openai-proxy",{"name":18,"slug":45},"llamacpp",[47,53,59,65,71,77],{"id":48,"slug":49,"title":50,"cover_image":51,"image_url":51,"created_at":52,"category":13},"b84491ba-e4af-4581-8c04-1890df39a1ad","aider-open-source-coding-agent-repo-edits-zh","Aider 讓開源編碼變成 repo 編輯","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781013817997-l4il.png","2026-06-09T14:02:56.179093+00:00",{"id":54,"slug":55,"title":56,"cover_image":57,"image_url":57,"created_at":58,"category":13},"b6bc009f-238c-4466-b7ec-c7085c7fdbe8","wwdc-2026-rumors-siri-assistant-ios-27-zh","WWDC 2026 讓 Siri 變助手","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781007517876-bmuu.png","2026-06-09T12:18:03.608802+00:00",{"id":60,"slug":61,"title":62,"cover_image":63,"image_url":63,"created_at":64,"category":13},"08c6b018-aafd-4fb1-8e05-bfd726a2da4d","figma-release-notes-mcp-agent-qa-tools-zh","Figma 推出 MCP 連動 Make、Agent 與 QA 工具","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781006565224-8mlm.png","2026-06-09T12:02:15.251222+00:00",{"id":66,"slug":67,"title":68,"cover_image":69,"image_url":69,"created_at":70,"category":13},"eb333777-7723-49a4-8440-380359cf7062","nvidia-blueprints-nim-apis-builders-zh","NVIDIA Blueprints把NIM API包成模板","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780984084505-0hot.png","2026-06-09T05:47:34.726173+00:00",{"id":72,"slug":73,"title":74,"cover_image":75,"image_url":75,"created_at":76,"category":13},"41f49cc3-fa13-466f-87e5-575cfa2c9fb8","rust-worth-the-hype-2026-right-jobs-zh","Rust 在 2026 年值得追捧，但只適合對的工作","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780921978132-e1b0.png","2026-06-08T12:32:20.943246+00:00",{"id":78,"slug":79,"title":80,"cover_image":81,"image_url":81,"created_at":82,"category":13},"f45d93f2-b8a6-45cd-ac56-b4d349df410b","supabase-docker-self-hosting-guide-zh","Supabase Docker 自架更實用了","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780916611381-kymc.png","2026-06-08T11:02:31.738639+00:00",[84,89,94,99,104,109,114,119,124,129],{"id":85,"slug":86,"title":87,"created_at":88},"855cd52f-6fab-46cc-a7c1-42195e8a0de4","surepath-real-time-mcp-policy-controls-zh","SurePath 推出即時 MCP 政策控管","2026-03-26T07:57:40.77233+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"9b19ab54-edef-4dbd-9ce4-a51e4bae4ebb","mcp-in-2026-the-ai-tool-layer-teams-use-zh","2026 年 MCP：團隊真的在用的 AI 工具層","2026-03-26T08:01:46.589694+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"af9c46c3-7a28-410b-9f04-32b3de30a68c","prompting-in-2026-what-actually-works-zh","2026 提示工程，真正有用的是什麼","2026-03-26T08:08:12.453028+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"05553086-6ed0-4758-81fd-6cab24b575e0","garry-tan-open-sources-claude-code-toolkit-zh","Garry Tan 開源 Claude Code 工具包","2026-03-26T08:26:20.068737+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"042a73a2-18a2-433d-9e8f-9802b9559aac","github-ai-projects-to-watch-in-2026-zh","2026 必看 20 個 GitHub AI 專案","2026-03-26T08:28:09.619964+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"a5f94120-ac0d-4483-9a8b-63590071ac6a","claude-code-vs-cursor-2026-zh","Claude Code 與 Cursor 深度對比：202…","2026-03-26T13:27:14.279193+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"0975afa1-e0c7-4130-a20d-d890eaed995e","practical-github-guide-learning-ml-2026-zh","2026 機器學習入門 GitHub 實用指南","2026-03-27T01:16:49.712576+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"bfdb467a-290f-4a80-b3a9-6f081afb6dff","aiml-2026-student-ai-ml-lab-repo-review-zh","AIML-2026：像課綱的學生實驗 Repo","2026-03-27T01:21:51.467798+00:00",{"id":125,"slug":126,"title":127,"created_at":128},"80cabc3e-09fc-4ff5-8f07-b8d68f5ae545","ai-trending-github-repos-and-research-feeds-zh","AI Trending：把 AI 資源收成一張表","2026-03-27T01:31:35.262183+00:00",{"id":130,"slug":131,"title":132,"created_at":133},"3ce6e6e2-bac5-463e-9f8d-45caabcc61f7","awesome-ai-for-science-research-tools-map-zh","AI 科研工具清單，開始像地圖了","2026-03-27T01:46:50.521945+00:00"]