[IND] 6 分鐘閱讀OraCore 編輯部

微軟把 AKS 推向 AI 訓練核心

微軟在 Azure Kubernetes Service 加入 bare metal、Fleet Manager 和 Ray 服務,直接把 AKS 往 AI 訓練與推論場景推進,重點放在效能、治理和部署流程。

分享 LinkedIn
微軟把 AKS 推向 AI 訓練核心

微軟替 Azure Kubernetes Service 加上 bare metal、Fleet Manager 和 AI 部署工具,明顯是在把 AKS 往企業 AI 訓練與推論場景推進。

這次更新不是小修小補。微軟在 Microsoft Build 2026 端出一串新東西,核心是 Azure Kubernetes Service 的 bare metal 能力。講白了,就是讓工作負載更直接碰到硬體。

對 AI 團隊來說,這種改動很實際。延遲、GPU 存取、網路拓樸、每一層虛擬化開銷,都會影響訓練時間和雲端帳單。微軟也同步補上 Azure Kubernetes Fleet Manager,還有 Ray 和模型部署工具,整套味道很明顯。

功能狀態作用
AKS on Bare MetalPublic preview直接存取硬體,減少虛擬化層
Azure Kubernetes Fleet Manager已公布統一政策與工作負載配置
Anyscale on Azure已推出託管 Ray 服務,處理分散式 AI 工作
AI Runway已推出Kubernetes 原生模型部署框架

bare metal 是這次最有感的改動

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

AKS on Bare Metal 是整場更新的主角。微軟說,這個功能現在是 public preview,目標是讓 AI 工作負載直接接觸硬體,不必再多經過一層虛擬化。

微軟把 AKS 推向 AI 訓練核心

這件事聽起來很工程師,但其實很務實。訓練大模型很吃吞吐量,推論也很怕延遲。只要少一層開銷,常常就能換來更好的 GPU 利用率,甚至少一點雲端費用。

微軟還特別提到 NVLinkRDMA。這代表它不是只想把 Kubernetes 包裝得更漂亮,而是想讓 Azure 更像 AI 基礎設施,不只是通用雲端。

  • bare metal 直接瞄準高效能 AI 訓練。
  • NVLink 和 RDMA 對 GPU 叢集很重要。
  • 少一層虛擬化,通常就少一點延遲。
  • 對付昂貴加速器時,效率比口號更值錢。

Fleet Manager 管的是混合雲現實

Azure Kubernetes Fleet Manager 看起來沒那麼炫,但它解的是企業真問題。AI 叢集很少只待在單一區域。很多團隊會把工作拆到不同地點,原因可能是延遲、法規,或是容量不夠。

這時候最麻煩的不是跑不動,而是不好管。政策要一致,工作負載要能移,還要有人知道哪個叢集在吃哪種資源。Fleet Manager 的定位,就是幫微軟補上這層中央控管。

這種思路也跟 Kubernetes 的本質很搭。Kubernetes 本來就不是只有排程而已,它更像一個控制平面。只不過 AI 時代把這件事講得更直接:你不只要能跑,還要能管。

“A cluster is only as useful as the policy and automation around it,” said Kubernetes co-founder Brendan Burns in a 2024 CNCF interview.

這句話放在這次更新上很貼切。微軟不是在賣一個單獨的叢集功能。它是在賣一整套 AI 控管層,讓企業可以少一點手工維運。

如果你看雲端市場,這套路其實很合理。AWSGoogle Cloud 都在補 AI 能力。微軟的做法是把開源工具和託管服務黏在一起,讓企業有彈性,也有人幫忙收爛攤子。

Ray 和 AI Runway 是開發流程的補洞

微軟也把 Anyscale 帶進 Azure,做成託管的 Ray 服務。Ray 在分散式訓練、批次推論、資料處理都很常見。把它託管化,對團隊來說就是少掉很多安裝和維護成本。

微軟把 AKS 推向 AI 訓練核心

另一個是 AI Runway。微軟把它定義成 Kubernetes-native 的模型部署框架。這個點很重要,因為很多 AI 專案不是卡在訓練,而是卡在上線。

說得更白一點,Notebook 跑得動不代表 production 撐得住。模型版本、資源配置、流量切換、回滾機制,這些才是每天會咬人的地方。AI Runway 的價值,就是把這條路縮短一點。

  • Anyscale on Azure 適合分散式 AI 工作。
  • Ray 對平行訓練和批次推論很常用。
  • AI Runway 針對模型部署流程。
  • 這些工具都在補從實驗到上線的落差。

這次更新很像微軟的老套路

微軟一向很會做一件事:把熱門開源工具包進雲端服務,再加上企業要的治理和整合。這次 AKS 更新也是同一套邏輯。Kubernetes、Ray、AI 部署框架,全都圍著 Azure 轉。

這種策略的好處很明確。開發者不用全部重寫,企業也不用自己從零搭平台。壞處也很明確,就是你會越來越依賴雲端供應商的整體設計。這點很現實,沒什麼好粉飾。

如果把這次更新拆開看,會發現它不是單點功能,而是三層一起補:硬體層、控制層、部署層。這種組合拳才是微軟真正想推的東西。

  • 硬體層:bare metal AKS。
  • 控制層:Fleet Manager。
  • 部署層:Anyscale 和 AI Runway。
  • 整體方向就是把 Azure 做成 AI 作業系統。

企業會在意的,其實只有三個數字

AI 基礎設施最後都會回到幾個數字。第一個是訓練時間。第二個是推論延遲。第三個是每次訓練或每千次推論的成本。其他名詞都可以先放旁邊。

bare metal 的意義,就是看它能不能把這三個數字壓下來。Fleet Manager 的意義,就是看它能不能把跨區域和混合雲管理成本壓下來。Ray 和 AI Runway 的意義,則是看它能不能縮短交付時間。

如果這三件事都做得到,AKS 就不再只是容器平台。它會變成企業 AI 的操作層。這也是微軟這波更新最值得盯的地方。

接下來要看的是實測,不是簡報

我覺得這次更新方向對了,但真正的考驗還沒來。微軟現在講的是能力,市場接下來要看的是數字。像是 GPU 利用率、訓練吞吐量、部署時間,還有實際省下多少成本。

如果 Azure 之後能拿出 bare metal AKS 的實測結果,這套故事就更完整。反過來說,如果沒有硬數據,大家很快就會把它當成另一版雲端包裝。

對開發者來說,現在最實際的動作很簡單:先看你目前的 AI 工作流,有多少時間花在基礎設施,而不是模型本身。那個比例越高,就越值得關注這次 AKS 更新。