微軟把 AKS 推向 AI 訓練核心
微軟在 Azure Kubernetes Service 加入 bare metal、Fleet Manager 和 Ray 服務,直接把 AKS 往 AI 訓練與推論場景推進,重點放在效能、治理和部署流程。

微軟替 Azure Kubernetes Service 加上 bare metal、Fleet Manager 和 AI 部署工具,明顯是在把 AKS 往企業 AI 訓練與推論場景推進。
這次更新不是小修小補。微軟在 Microsoft Build 2026 端出一串新東西,核心是 Azure Kubernetes Service 的 bare metal 能力。講白了,就是讓工作負載更直接碰到硬體。
對 AI 團隊來說,這種改動很實際。延遲、GPU 存取、網路拓樸、每一層虛擬化開銷,都會影響訓練時間和雲端帳單。微軟也同步補上 Azure Kubernetes Fleet Manager,還有 Ray 和模型部署工具,整套味道很明顯。
| 功能 | 狀態 | 作用 |
|---|---|---|
| AKS on Bare Metal | Public preview | 直接存取硬體,減少虛擬化層 |
| Azure Kubernetes Fleet Manager | 已公布 | 統一政策與工作負載配置 |
| Anyscale on Azure | 已推出 | 託管 Ray 服務,處理分散式 AI 工作 |
| AI Runway | 已推出 | Kubernetes 原生模型部署框架 |
bare metal 是這次最有感的改動
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
AKS on Bare Metal 是整場更新的主角。微軟說,這個功能現在是 public preview,目標是讓 AI 工作負載直接接觸硬體,不必再多經過一層虛擬化。

這件事聽起來很工程師,但其實很務實。訓練大模型很吃吞吐量,推論也很怕延遲。只要少一層開銷,常常就能換來更好的 GPU 利用率,甚至少一點雲端費用。
微軟還特別提到 NVLink 和 RDMA。這代表它不是只想把 Kubernetes 包裝得更漂亮,而是想讓 Azure 更像 AI 基礎設施,不只是通用雲端。
- bare metal 直接瞄準高效能 AI 訓練。
- NVLink 和 RDMA 對 GPU 叢集很重要。
- 少一層虛擬化,通常就少一點延遲。
- 對付昂貴加速器時,效率比口號更值錢。
Fleet Manager 管的是混合雲現實
Azure Kubernetes Fleet Manager 看起來沒那麼炫,但它解的是企業真問題。AI 叢集很少只待在單一區域。很多團隊會把工作拆到不同地點,原因可能是延遲、法規,或是容量不夠。
這時候最麻煩的不是跑不動,而是不好管。政策要一致,工作負載要能移,還要有人知道哪個叢集在吃哪種資源。Fleet Manager 的定位,就是幫微軟補上這層中央控管。
這種思路也跟 Kubernetes 的本質很搭。Kubernetes 本來就不是只有排程而已,它更像一個控制平面。只不過 AI 時代把這件事講得更直接:你不只要能跑,還要能管。
“A cluster is only as useful as the policy and automation around it,” said Kubernetes co-founder Brendan Burns in a 2024 CNCF interview.
這句話放在這次更新上很貼切。微軟不是在賣一個單獨的叢集功能。它是在賣一整套 AI 控管層,讓企業可以少一點手工維運。
如果你看雲端市場,這套路其實很合理。AWS 和 Google Cloud 都在補 AI 能力。微軟的做法是把開源工具和託管服務黏在一起,讓企業有彈性,也有人幫忙收爛攤子。
Ray 和 AI Runway 是開發流程的補洞
微軟也把 Anyscale 帶進 Azure,做成託管的 Ray 服務。Ray 在分散式訓練、批次推論、資料處理都很常見。把它託管化,對團隊來說就是少掉很多安裝和維護成本。

另一個是 AI Runway。微軟把它定義成 Kubernetes-native 的模型部署框架。這個點很重要,因為很多 AI 專案不是卡在訓練,而是卡在上線。
說得更白一點,Notebook 跑得動不代表 production 撐得住。模型版本、資源配置、流量切換、回滾機制,這些才是每天會咬人的地方。AI Runway 的價值,就是把這條路縮短一點。
- Anyscale on Azure 適合分散式 AI 工作。
- Ray 對平行訓練和批次推論很常用。
- AI Runway 針對模型部署流程。
- 這些工具都在補從實驗到上線的落差。
這次更新很像微軟的老套路
微軟一向很會做一件事:把熱門開源工具包進雲端服務,再加上企業要的治理和整合。這次 AKS 更新也是同一套邏輯。Kubernetes、Ray、AI 部署框架,全都圍著 Azure 轉。
這種策略的好處很明確。開發者不用全部重寫,企業也不用自己從零搭平台。壞處也很明確,就是你會越來越依賴雲端供應商的整體設計。這點很現實,沒什麼好粉飾。
如果把這次更新拆開看,會發現它不是單點功能,而是三層一起補:硬體層、控制層、部署層。這種組合拳才是微軟真正想推的東西。
- 硬體層:bare metal AKS。
- 控制層:Fleet Manager。
- 部署層:Anyscale 和 AI Runway。
- 整體方向就是把 Azure 做成 AI 作業系統。
企業會在意的,其實只有三個數字
AI 基礎設施最後都會回到幾個數字。第一個是訓練時間。第二個是推論延遲。第三個是每次訓練或每千次推論的成本。其他名詞都可以先放旁邊。
bare metal 的意義,就是看它能不能把這三個數字壓下來。Fleet Manager 的意義,就是看它能不能把跨區域和混合雲管理成本壓下來。Ray 和 AI Runway 的意義,則是看它能不能縮短交付時間。
如果這三件事都做得到,AKS 就不再只是容器平台。它會變成企業 AI 的操作層。這也是微軟這波更新最值得盯的地方。
接下來要看的是實測,不是簡報
我覺得這次更新方向對了,但真正的考驗還沒來。微軟現在講的是能力,市場接下來要看的是數字。像是 GPU 利用率、訓練吞吐量、部署時間,還有實際省下多少成本。
如果 Azure 之後能拿出 bare metal AKS 的實測結果,這套故事就更完整。反過來說,如果沒有硬數據,大家很快就會把它當成另一版雲端包裝。
對開發者來說,現在最實際的動作很簡單:先看你目前的 AI 工作流,有多少時間花在基礎設施,而不是模型本身。那個比例越高,就越值得關注這次 AKS 更新。