[AGENT] 6 分鐘閱讀OraCore 編輯部

LiteLLM 推出 Rust 版輕量網關

LiteLLM-Rust 是一個用 Rust 寫的輕量 AI gateway,保留原本 config.yaml 與資料庫結構,目標是把 coding agent 的轉發延遲壓到 1ms 內。

分享 LinkedIn
LiteLLM 推出 Rust 版輕量網關

LiteLLM-Rust 是一個給 coding agent 用的輕量 Rust AI gateway,保留 LiteLLM 原本設定與資料庫格式。

LiteLLM 這次不是改大功能。它是直接換 runtime。LiteLLM 推出 LiteLLM-Rust,主打和 Python gateway 共用 config.yaml 與資料庫 schema。目標也很直接:把 coding agent 的轉發開銷壓到 1ms 以下。

這種做法很務實。你不用重寫整套控管層。你只要換執行層。對常跑 Claude Code 這類 agent 的團隊來說,這種改法比再加一堆花俏功能更有感。

項目內容
執行環境Rust
相容性共用 config.yaml 與 Postgres schema
效能目標Claude Code 呼叫開銷低於 1ms
目前支援E2BDaytona
授權MIT

它到底改了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

LiteLLM-Rust 的重點不是功能爆量。重點是相容。它吃同一份 config.yaml,也用同一套 Postgres schema。這表示原本的 keys、virtual keys、teams、budgets、routing rules 和 fallbacks,大多都能照舊保留。

LiteLLM 推出 Rust 版輕量網關

講白了,這對平台團隊很重要。gateway 最怕的就是你只是想換 runtime,結果 auth、routing、觀測、預算控制全都要重做。那不是升級,那是搬家。LiteLLM 想把這件事變得像換容器一樣單純。

它還把啟動方式做得很像原本 Python 版本。像是 litellm-rust --config /etc/litellm/config.yaml --port 4000 這種指令,就很像真的要進 production,而不是只給 demo 看。

  • 共用 config.yaml
  • 共用 Postgres schema
  • 沿用 client SDK 與管理流程
  • 保留 routing 與 budget 這些核心能力

這種設計很像在說一件事:先別談新功能,先把切換成本壓低。對開發者來說,這通常比口號有用多了。

為什麼 1ms 很在意

這次鎖定的對象很明確,就是會一直打 API 的 coding agent。像 Claude Code 這類工具,常常在一個任務裡發出很多次模型呼叫。每次多個幾毫秒,累積起來就很煩。

LiteLLM 說 Rust 版想把 request forwarding 的熱路徑壓到 sub-millisecond。這不是什麼華麗指標,但很實際。因為 agent 工作流裡,延遲不是單次成本,而是整段流程的乘數。

“Do one thing, and do it well” — Doug McIlroy

這句話放在這裡很剛好。LiteLLM-Rust 沒打算現在就取代完整 Python gateway。它先做一件事:把轉發層做薄。對 agent 工作負載來說,這比再塞一堆 dashboard 功能更合理。

  • 目標:每次 Claude Code 呼叫低於 1ms
  • Python gateway 被描述為毫秒級開銷
  • agent 任務可能有數十次工具呼叫
  • 每次少一點延遲,整體體感差很多

如果這個數字真的能在真實負載下守住,開發者會先感受到等待時間變短。這種改善很土,但很有感。

現在能用什麼,還缺什麼

目前 LiteLLM-Rust 已經支援 E2BDaytona 的 sandboxing。它也支援用 cron、webhook 或 API trigger 來排程 Claude Code 執行。換句話說,它已經不只是 proxy,還開始碰 agent 執行協調。

LiteLLM 推出 Rust 版輕量網關

但它還很早期。LiteLLM 列出的 roadmap 也很清楚,像 durable sessions、memory、artifacts 和 vault 都還在後面。這些東西才是把一次性 agent 變成長流程的關鍵。

如果你有做過 agent 專案,就知道 state 才是麻煩本體。模型呼叫本身不難。難的是上下文、權限、輸出保存、重試與恢復。這也是為什麼 gateway 不能只會轉請求。

  • 目前可用:E2B sandboxing
  • 目前可用:Daytona sandboxing
  • 目前可用:cron、webhook、API trigger
  • 規劃中:durable sessions、memory、artifacts、vault

這個方向很符合現在的 agent 趨勢。大家不再只做聊天介面。大家在做可執行的工作流。誰能把這層管好,誰就比較接近真正的基礎設施。

它跟 Python 版怎麼分工

LiteLLM 的態度很保守,也很合理。Python gateway 還是官方主力。它是 production-grade,也還是企業部署的推薦選項。若你需要 SSO、SCIM、air-gapped 部署、24/7 SLA 和更完整的 guardrails,LiteLLM 也把 LiteLLM Enterprise 放在那裡。

這種切法不奇怪。Rust repo 是獨立專案。它比較像實驗線。先測 agent-first 的 runtime 設計,再把學到的東西帶回主產品。這樣做比硬把所有需求塞進同一個 runtime 穩得多。

對團隊來說,選擇也很清楚。你要成熟與完整,就留在 Python。你要測低延遲與簡化執行路徑,就看 Rust。兩條線都合理,問題只在你現在要哪一種。

  • Python LiteLLM:功能完整,偏企業部署
  • LiteLLM-Rust:輕量,偏 agent 轉發
  • Enterprise:SSO、SCIM、SLA、air-gapped
  • Rust repo:MIT 授權,適合試驗

我覺得這種分工比硬推單一方案聰明。因為 AI 基礎設施本來就不是一種工作負載。有人要穩,有人要快,有人兩個都要。

產業脈絡其實很清楚

AI infra 最近的變化,不是在模型本身,而是在周邊層。gateway、router、sandbox、memory、artifact,這些東西越來越重要。因為真正上線的不是聊天機器人,而是會動手做事的 agent。

這也解釋了為什麼 Rust 會一直被拿來做基礎設施。它不是萬靈丹,但在高併發、低延遲、少記憶體的場景,確實很合適。尤其是轉發層,很多時候就是該越薄越好。

接下來要看的,不是 LiteLLM-Rust 會不會變成全能平台。那很可能不是它的目標。要看的,是有多少團隊願意為了省掉每次呼叫的幾毫秒,去換一個更簡單的執行層。

如果你現在就在跑 coding agents,我會先問一件事:你卡的是模型品質,還是基礎設施延遲?很多團隊其實兩邊都卡,只是平常先罵 prompt,沒空看網路層。

接下來該看什麼

LiteLLM-Rust 最值得觀察的,不是 demo 跑得多順,而是能不能無痛接進既有環境。只要 config 與 schema 真能沿用,遷移成本就會低很多。

真正的測試會在負載下發生。等它遇到更多 agent、更多工具呼叫、更多重試,1ms 這個目標才會知道是不是只是口號。若你有在做類似架構,現在就值得拿來比對一次。

我的建議很直接:先挑一條非核心 agent 流程試跑,再看延遲與穩定性。別一開始就全站切換。這種東西,先驗證路徑,再談擴大部署,會比較不容易踩雷。