LiteLLM 推出 Rust 版輕量網關

Q: 它到底改了什麼?

LiteLLM-Rust 的重點不是功能爆量。重點是相容。它吃同一份 config.yaml，也用同一套 Postgres schema。這表示原本的 keys、virtual keys、teams、budgets、routing rules 和 fallbacks，大多都能照舊保留。

OraCore Editors

返回首頁

[AGENT] 2026年6月8日6 分鐘閱讀OraCore 編輯部

LiteLLM 推出 Rust 版輕量網關

LiteLLM-Rust 是一個用 Rust 寫的輕量 AI gateway，保留原本 config.yaml 與資料庫結構，目標是把 coding agent 的轉發延遲壓到 1ms 內。

coding agent

分享 LinkedIn

LiteLLM-Rust 是一個給 coding agent 用的輕量 Rust AI gateway，保留 LiteLLM 原本設定與資料庫格式。

LiteLLM 這次不是改大功能。它是直接換 runtime。LiteLLM 推出 LiteLLM-Rust，主打和 Python gateway 共用 config.yaml 與資料庫 schema。目標也很直接：把 coding agent 的轉發開銷壓到 1ms 以下。

這種做法很務實。你不用重寫整套控管層。你只要換執行層。對常跑 Claude Code 這類 agent 的團隊來說，這種改法比再加一堆花俏功能更有感。

項目	內容
執行環境	Rust
相容性	共用 config.yaml 與 Postgres schema
效能目標	Claude Code 呼叫開銷低於 1ms
目前支援	E2B、Daytona
授權	MIT

它到底改了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

LiteLLM-Rust 的重點不是功能爆量。重點是相容。它吃同一份 config.yaml，也用同一套 Postgres schema。這表示原本的 keys、virtual keys、teams、budgets、routing rules 和 fallbacks，大多都能照舊保留。

講白了，這對平台團隊很重要。gateway 最怕的就是你只是想換 runtime，結果 auth、routing、觀測、預算控制全都要重做。那不是升級，那是搬家。LiteLLM 想把這件事變得像換容器一樣單純。

它還把啟動方式做得很像原本 Python 版本。像是 litellm-rust --config /etc/litellm/config.yaml --port 4000 這種指令，就很像真的要進 production，而不是只給 demo 看。

共用 config.yaml
共用 Postgres schema
沿用 client SDK 與管理流程
保留 routing 與 budget 這些核心能力

這種設計很像在說一件事：先別談新功能，先把切換成本壓低。對開發者來說，這通常比口號有用多了。

為什麼 1ms 很在意

這次鎖定的對象很明確，就是會一直打 API 的 coding agent。像 Claude Code 這類工具，常常在一個任務裡發出很多次模型呼叫。每次多個幾毫秒，累積起來就很煩。

LiteLLM 說 Rust 版想把 request forwarding 的熱路徑壓到 sub-millisecond。這不是什麼華麗指標，但很實際。因為 agent 工作流裡，延遲不是單次成本，而是整段流程的乘數。

“Do one thing, and do it well” — Doug McIlroy

這句話放在這裡很剛好。LiteLLM-Rust 沒打算現在就取代完整 Python gateway。它先做一件事：把轉發層做薄。對 agent 工作負載來說，這比再塞一堆 dashboard 功能更合理。

目標：每次 Claude Code 呼叫低於 1ms
Python gateway 被描述為毫秒級開銷
agent 任務可能有數十次工具呼叫
每次少一點延遲，整體體感差很多

如果這個數字真的能在真實負載下守住，開發者會先感受到等待時間變短。這種改善很土，但很有感。

現在能用什麼，還缺什麼

目前 LiteLLM-Rust 已經支援 E2B 和 Daytona 的 sandboxing。它也支援用 cron、webhook 或 API trigger 來排程 Claude Code 執行。換句話說，它已經不只是 proxy，還開始碰 agent 執行協調。

但它還很早期。LiteLLM 列出的 roadmap 也很清楚，像 durable sessions、memory、artifacts 和 vault 都還在後面。這些東西才是把一次性 agent 變成長流程的關鍵。

如果你有做過 agent 專案，就知道 state 才是麻煩本體。模型呼叫本身不難。難的是上下文、權限、輸出保存、重試與恢復。這也是為什麼 gateway 不能只會轉請求。

目前可用：E2B sandboxing
目前可用：Daytona sandboxing
目前可用：cron、webhook、API trigger
規劃中：durable sessions、memory、artifacts、vault

這個方向很符合現在的 agent 趨勢。大家不再只做聊天介面。大家在做可執行的工作流。誰能把這層管好，誰就比較接近真正的基礎設施。

它跟 Python 版怎麼分工

LiteLLM 的態度很保守，也很合理。Python gateway 還是官方主力。它是 production-grade，也還是企業部署的推薦選項。若你需要 SSO、SCIM、air-gapped 部署、24/7 SLA 和更完整的 guardrails，LiteLLM 也把 LiteLLM Enterprise 放在那裡。

這種切法不奇怪。Rust repo 是獨立專案。它比較像實驗線。先測 agent-first 的 runtime 設計，再把學到的東西帶回主產品。這樣做比硬把所有需求塞進同一個 runtime 穩得多。

對團隊來說，選擇也很清楚。你要成熟與完整，就留在 Python。你要測低延遲與簡化執行路徑，就看 Rust。兩條線都合理，問題只在你現在要哪一種。

Python LiteLLM：功能完整，偏企業部署
LiteLLM-Rust：輕量，偏 agent 轉發
Enterprise：SSO、SCIM、SLA、air-gapped
Rust repo：MIT 授權，適合試驗

我覺得這種分工比硬推單一方案聰明。因為 AI 基礎設施本來就不是一種工作負載。有人要穩，有人要快，有人兩個都要。

產業脈絡其實很清楚

AI infra 最近的變化，不是在模型本身，而是在周邊層。gateway、router、sandbox、memory、artifact，這些東西越來越重要。因為真正上線的不是聊天機器人，而是會動手做事的 agent。

這也解釋了為什麼 Rust 會一直被拿來做基礎設施。它不是萬靈丹，但在高併發、低延遲、少記憶體的場景，確實很合適。尤其是轉發層，很多時候就是該越薄越好。

接下來要看的，不是 LiteLLM-Rust 會不會變成全能平台。那很可能不是它的目標。要看的，是有多少團隊願意為了省掉每次呼叫的幾毫秒，去換一個更簡單的執行層。

如果你現在就在跑 coding agents，我會先問一件事：你卡的是模型品質，還是基礎設施延遲？很多團隊其實兩邊都卡，只是平常先罵 prompt，沒空看網路層。

接下來該看什麼

LiteLLM-Rust 最值得觀察的，不是 demo 跑得多順，而是能不能無痛接進既有環境。只要 config 與 schema 真能沿用，遷移成本就會低很多。

真正的測試會在負載下發生。等它遇到更多 agent、更多工具呼叫、更多重試，1ms 這個目標才會知道是不是只是口號。若你有在做類似架構，現在就值得拿來比對一次。

我的建議很直接：先挑一條非核心 agent 流程試跑，再看延遲與穩定性。別一開始就全站切換。這種東西，先驗證路徑，再談擴大部署，會比較不容易踩雷。

// 相關文章

LiteLLM 推出 Rust 版輕量網關

它到底改了什麼

訂閱 AI 趨勢週報

為什麼 1ms 很在意

現在能用什麼，還缺什麼

它跟 Python 版怎麼分工

產業脈絡其實很清楚

接下來該看什麼

Kimi K3 編碼代理評測操作指南

AI 编程的勝負手不是最強模型，而是最強編排

Claude Code 把聊天變成終端工作

分散式 AI 合規必須寫進 agent rails，而不是事後補丁

開源 AI Agent 框架實作比較與追蹤

Codex Micro 讓控制面板變安全