Build 2026 把代理變系統

OraCore Editors

返回首頁

[TOOLS] 2026年6月13日10 分鐘閱讀OraCore 編輯部

Build 2026 把代理變系統

我把 Microsoft Build 2026 拆成可抄的代理系統做法：上下文、執行環境、模型路由、治理與模板。

MCP

分享 LinkedIn

我把 Microsoft Build 2026 拆成可抄的代理系統做法：上下文、執行環境、模型路由、治理與模板。

我最近一直在看各家代理框架，看到後來真的很膩。簡報上都很會講，什麼自動化、什麼多步推理、什麼幫你把事情做完；可一落地就開始漏氣。模型會回得很快，卻常常快到亂答；工具接得很滿，結果一碰到權限、記憶、檢索、稽核，就整個像臨時拼起來的玩具。我不是沒試過，我是試太多次了。

所以我看到 Microsoft Build 2026 的這篇〈Be yourself at work〉時，第一個反應不是興奮，是皺眉。因為它雖然還是有一點平台味道，但講的東西意外務實：代理不是單一模型加一個 prompt 而已，而是一整套系統，包含上下文、執行環境、模型選擇、治理和開發流程。這才像真的有做過案子的人會講的話。

他們不是在賣模型，他們在賣上下文

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

「對任何組織來說，差異化的重點不再是取得智慧，而是擁有權。」

這句話很直白，也很像大廠會講的那種話，但我覺得它抓到重點了。問題從來不是「有沒有模型」，而是「代理到底懂不懂你的工作場景」。

翻譯一下就是：模型只是引擎，真正值錢的是它能不能抓到你公司的脈絡。Microsoft 把這層拆成幾個方向：Microsoft 365 內的工作脈絡、Microsoft Fabric 的結構化資料、企業知識檢索，以及外部網路資訊。它們想講的不是「再塞一個向量資料庫」，而是「把上下文變成平台能力」。

我以前做過一個內部助理，模型很強，工具也不少，但答案一直不好用。後來回頭看才發現，問題不是模型不夠聰明，是它根本不知道誰在問、問的是哪個專案、哪些資料能看、哪些只能參考。它拿到的是一堆碎片，當然只能亂湊。

實操上，我會把上下文至少切成三層：

身份與權限：誰在用、屬於哪個團隊、可以碰哪些工具。
企業知識：文件、工單、CRM、行事曆、會議紀錄、內部 API。
即時資訊：網頁、政策文件、版本公告、公開文件、競品頁面。

這三層不分開，代理就會把私有資訊和公開資訊混在一起，答出來的內容看起來很順，實際上很危險。這種錯最煩，因為它不是大爆炸，是慢慢把你信任磨掉。

我會建議你先不要急著做「記憶系統」，先做「上下文分層」。只要你把身份、企業知識、即時資訊拆開，後面檢索、權限、稽核都會好做很多。這一步很土，但很有用。

Web IQ 這段，我會先抄走

Microsoft 在文裡提到一個我覺得最有實作味的東西：Web IQ。他們把它描述成給代理做即時 grounding 的一層，強調速度、模型無關、而且支援 MCP。這種說法聽起來很像行銷，但方向其實對。

白話一點說，就是不要叫代理自己去網路上亂翻。你要的是「相關段落」，不是「一整頁搜尋結果」。代理最浪費時間的地方，常常不是推理，而是找資料、刪垃圾、再把垃圾吞回去。這種流程很吃 token，也很吃時間，還很容易把不重要的內容當成重點。

我之前做過一個研究助理，最痛的地方就是搜尋層。網頁抓回來一堆，模型每次都像在垃圾堆裡撿報紙。最後不是答非所問，就是引用到過時內容。那時我就很確定，檢索層不能只是「搜尋 API + 把結果丟給模型」這麼粗暴。

實操上，我會這樣做：

搜尋和抽段落分開，不要把整頁 HTML 直接塞進 prompt。
回傳的是 passage，不是 page。
每個片段都要帶來源網址、時間戳、可信度。
檢索層盡量做成模型無關，別把整個系統綁死在單一供應商。

如果你現在就要做一版，最小可行架構其實很單純：先搜尋，再做段落排序，再做來源過濾，最後才交給代理循環。不要讓模型自己猜資料在哪裡，因為它猜的時候通常都很自信，這才是最麻煩的地方。

他們終於開始談執行環境，不只談 prompt

這段我看得最順眼。Microsoft 沒有只講「代理需要知識」，而是把執行環境也一起端上來：沙箱、容器、主機代管執行、Windows、Windows Subsystem for Linux、還有各種治理工具。意思很明顯，代理不是聊天框，它是會真的去做事的程式。

翻譯一下就是：只要代理能讀檔、寫檔、跑指令、呼叫服務，runtime 就不是配角，而是主角。很多團隊做代理 demo 的時候都很順，因為是在筆電、Notebook、或某個臨時腳本裡跑；一旦進到正式環境，就開始撞安全政策、撞檔案系統、撞權限、撞工具版本。最後你不是在 debug 代理，是在 debug 平台。

我自己踩過最煩的一次，是把一個看起來很漂亮的工作流搬到正式環境，結果每一個步驟都要補權限，補到後來整個流程變得又慢又碎。那時我才懂，代理如果真的要上線，先定義邊界，再定義行為，順序不能反。

實操上，我會直接照這個順序來：

先定義執行邊界，再定義代理能做什麼。
能寫、能刪、能呼叫外部系統的動作，一律放沙箱。
政策要宣告式，別把檢查散在五個服務裡。
本機和雲端的執行條件要盡量一致，不然你只是在製造假成功。

這一塊我覺得比炫技重要多了。因為只要代理開始動手，治理就不是附加功能，是基本配備。你不先把 runtime 管好，後面再漂亮的 prompt 都只是表面功夫。

模型選擇還是重點，不是備註

Microsoft 這次也很明顯在推多模型策略，像是 MAI-Thinking-1、MAI-Image-2.5、MAI-Voice-2、MAI-Transcribe 1.5、MAI-Code-1，再加上 GitHub Copilot、VS Code 和 GitHub 這些開發場景。這不是單純秀模型，而是在講「模型路由」。

也就是說，不要迷信一顆模型打天下。推理、分類、摘要、轉錄、圖片生成、程式碼修補，本來就不是同一種工作。你硬要拿同一顆模型全包，最後不是成本爆掉，就是品質不穩，或兩個一起來。

我以前做過一個客服代理，最早也是一顆模型打到底。結果分類很爛、摘要還行、回覆又太慢。後來我把它拆成路由器：先用便宜模型判斷任務類型，再交給對應的專用模型處理，整體就順很多。這種做法很無聊，但很有效。

實操上，我會建議你這樣設計：

先做模型路由器，不要把模型寫死在每個步驟裡。
每種任務都要知道哪顆模型最適合，別只看排行榜。
評估指標要對準你的工作流，不要拿通用 benchmark 自嗨。
保留失敗退路，包含延遲、成本、政策限制三種情況。

如果你團隊現在還是「一顆模型跑全部」，我真的建議你早點拆。不是因為多模型比較潮，是因為它比較像真的系統。

治理如果不先做，代理只會變成事故機器

這篇裡面我覺得最值得注意的，是 Microsoft 把治理講得很前面。他們提到 Agent 365、ASSERT、Agent Control Specification，還有一套用多個代理找漏洞的安全系統 MDASH。這些名詞很多，但核心其實只有一個：代理一旦會動手，就要能被識別、被限制、被稽核。

白話說，代理不是「有沒有回答」的問題，而是「它到底是誰、能做什麼、碰過什麼、出事怎麼停」。這些如果不先設計，後面一切都會很痛。很多團隊喜歡說先做 prototype，再補控制；我聽到這句就想翻白眼，因為那通常代表最後根本補不回來。

我見過最慘的狀況，是代理可以發信、改文件、呼叫 API、觸發工作流程，結果權限和紀錄各自散在不同系統。真的出事時，連誰下的指令都查不乾淨。這種系統不是不聰明，是不可信。

實操上，我會直接要求這幾件事：

每個代理都要有自己的身份，不要只共用一把 API key。
所有工具呼叫都要記錄輸入、輸出和政策判斷。
評估環境和正式權限要分開。
上線前先測 kill switch，不要等事故發生才找按鈕。

如果你想看別家怎麼處理，也可以對照 Anthropic 的工具文件，或看 MCP 生態怎麼談工具接法。大家講法不同，但問題都一樣：模型能動手之後，控制平面就不能再隨便。

本機開發還是很重要，別被雲端話術騙了

Microsoft 也沒有完全忽略本機環境。他們提到像是 Windows、WSL、GPU passthrough、終端機體驗、還有開發盒子這些東西。這聽起來很像硬體廣告，但其實是在講一件事：開發者還是需要快速在本機把代理跑起來。

翻譯一下就是，雲端再方便，本機迭代還是最省時間。你要試 prompt、試工具、試 sandbox、試權限，本機如果卡得要命，整個團隊的節奏就會被拖死。很多 AI 專案最後不是死在模型，而是死在環境太碎。

我自己最討厭的就是那種「理論上可以跑」的開發流程。GPU 在這邊，Linux 在那邊，IDE 在另一邊，權限又要另外申請，最後每個人都在修自己的機器。這種時候你根本不是在做產品，你是在做安裝教學。

實操上，我會這樣要求：

本機開發要是正式路徑，不是玩具路徑。
本機權限和生產環境盡量對齊。
讓開發者能在本機先跑代理循環，不要每次都等遠端資源。
GPU、沙箱、shell、檔案系統這些能力要整合，不要各自為政。

這件事很樸素，但真的省時間。你只要讓本機環境夠像正式環境，很多問題在上線前就會先露餡，總比上線後才爆來得好。

可抄的模板

# 代理系統模板：先上下文，再執行，最後才是模型

## 1. 上下文分層
- 身份層：使用者是誰、屬於哪個團隊、可用權限有哪些
- 企業層：文件、工單、CRM、會議紀錄、內部 API
- 即時層：網頁、公告、版本說明、公開文件、競品資訊

## 2. 檢索規則
- 回傳段落，不回傳整頁
- 每筆資料都帶來源網址、時間戳、可信度
- 企業資料與網路資料分開檢索
- 檢索層保持模型無關

## 3. 模型路由
- 推理模型：多步規劃、整合、判斷
- 便宜模型：分類、路由、短答
- 程式模型：程式碼生成與修補
- 語音/影像模型：只有在任務需要時才叫用

## 4. 執行政策
- 每個代理都要有身份
- 每次工具呼叫都要記錄
- 寫入與刪除動作一律沙箱化
- 網路存取必須明確授權
- 高風險動作要有人工確認

## 5. 執行環境
- 本機開發要盡量貼近正式環境
- 能用系統層沙箱就不要只靠應用層
- 本機與雲端都要能跑同一套代理流程
- 支援快速迭代，也支援集中部署

## 6. 評估方式
- 測實際工作流，不要只看通用 benchmark
- 量延遲、成本、正確率、失敗復原
- 對政策違規做回歸測試
- 只要檢索、模型或政策變更，就重跑評估

## 7. 上線順序
1. 先定義任務
2. 再定義上下文層
3. 再定義權限
4. 接檢索
5. 接模型路由
6. 接評估
7. 最後才上線

## 8. 最小提示詞骨架
你是 {{公司名稱}} 的內部代理。
你的任務是 {{任務}}。
只能使用下面列出的工具與資料來源。
請嚴格遵守執行政策。
如果缺上下文，就先問。
如果動作有高風險，就停下來請求確認。
回答要簡短、可追溯、可引用。

## 9. 工具白名單與黑名單
- 允許：search_web、read_docs、query_database、create_ticket、draft_email
- 禁止：delete_records、send_external_email、deploy_prod

## 10. 上線檢查清單
- [ ] 上下文來源已盤點
- [ ] 檢索已測過
- [ ] 模型路由已設定
- [ ] 沙箱已強制啟用
- [ ] 稽核紀錄已開啟
- [ ] kill switch 已測過
- [ ] 回歸評估都通過
- [ ] 申請與核准流程已寫清楚

這份模板不是照抄 Microsoft 原文，我是把它拆成我自己會用的版本。它的精神很簡單：上下文先行、執行環境第二、模型選擇第三、治理要一路跟著。你如果明天就要做內部代理平台，我會建議直接從這個順序開始。

我不會跟你說這樣最輕鬆，因為它一點都不輕鬆。但如果你的代理要真的做事，這就是比較像樣的做法，不是那種只會講話的 demo。

來源主要是 Microsoft 官方文章 Microsoft Build 2026: Be yourself at work，我把原文拆解後改寫成台灣開發者比較能直接拿去用的版本。其他參考連結包含 MCP、Microsoft Fabric、VS Code、Anthropic 工具文件，原創整理與模板是我自己補的。

// 相關文章

Build 2026 把代理變系統

他們不是在賣模型，他們在賣上下文

訂閱 AI 趨勢週報

Web IQ 這段，我會先抄走

他們終於開始談執行環境，不只談 prompt

模型選擇還是重點，不是備註

治理如果不先做，代理只會變成事故機器

本機開發還是很重要，別被雲端話術騙了

可抄的模板

Rust 讓你先跑分，Go 讓你先上線

10 個身分協議把 KYC 變私密

用 Consensus AI 快速掃描文獻

15 個 Perplexity 研究決策提示詞

Mistral AI 模型 2026 實作選型指南

RustRover 2026.2 把 Rust 設定收成一個檔