[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-ai-anomaly-response-multi-agent-root-cause-zh":3,"article-related-ai-anomaly-response-multi-agent-root-cause-zh":29,"series-industry-17693e5b-c1f6-4e3a-b222-bbb6451456a9":74},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":11,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":11},"17693e5b-c1f6-4e3a-b222-bbb6451456a9","ai-anomaly-response-multi-agent-root-cause-zh","AI異常處置走向多Agent協作","\u003Cp>5月22日，\u003Ca href=\"https:\u002F\u002Fwww.xcops.com.cn\u002F\" target=\"_blank\" rel=\"noopener\">XCOPS智能運維管理人年會\u003C\u002Fa>廣州站，要把AI異常處置搬上檯面。這次不是空談概念。公開資訊直接丟出4個技術點：時間序列異常偵測、下鑽分析、日誌聚類、多Age\u003Ca href=\"\u002Fnews\u002Faustralia-anthropic-ai-safety-mou-zh\">nt\u003C\u002Fa>根因定位。\u003C\u002Fp>\u003Cp>說白了，這已經不是「有沒有AI」的問題。這是在問，故障來了之後，系統能不能自己找線索。對SRE、AIOps、資料平台團隊來說，這種流程如果跑順，值班壓力會差很多。\u003C\u002Fp>\u003Cp>更重要的是，這場分享來自\u003Ca href=\"https:\u002F\u002Fwww.aliyun.com\u002F\" target=\"_blank\" rel=\"noopener\">阿里雲\u003C\u002Fa>計算平台智能運維算法團隊。它談的不是 demo，而是會落到\u003Ca href=\"https:\u002F\u002Fwww.alibabacloud.com\u002Fproduct\u002Fmaxcompute\" target=\"_blank\" rel=\"noopener\">MaxCompute\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.aliyun.com\u002Fproduct\u002Fflink\" target=\"_blank\" rel=\"noopener\">Flink\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.aliyun.com\u002Fproduct\u002Fdataworks\" target=\"_blank\" rel=\"noopener\">DataWorks\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.aliyun.com\u002Fproduct\u002Fai\u002Fpaas\u002Fpai\" target=\"_blank\" rel=\"noopener\">PAI\u003C\u002Fa>這種真實產品線。這點很關鍵。因為線上故障不會等你慢慢實驗。\u003C\u002Fp>\u003Ch2>為什麼異常處置變成AI題目\u003C\u002Fh2>\u003Cp>運維最花時間的，不是收到告警。是搞懂告警在吵什麼。指標飄一下，可能是流量變化，也可能是任務堆積。再不然，就是依賴服務慢了，或資料延遲了。人工排查時，工程師通常要先看監控，再翻日誌，再查呼叫鏈。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775496631661-ga19.png\" alt=\"AI異常處置走向多Agent協作\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>如果系統一多，這個流程就很痛。尤其是大資料平台，任務多、鏈路長、元件雜。單一告警常常只是表面症狀。你看到的是 CPU 飆高，背後可能是排程卡住。你看到的是延遲升高，根因可能在上游資料源。\u003C\u002Fp>\u003Cp>阿里雲這次的方向很直接。先用通用時間序列異常偵測抓出問題。再靠下鑽分析和日誌聚類縮小範圍。最後讓多個 Age\u003Ca href=\"\u002Fnews\u002Fmoneygram-pairpoint-etoro-midnight-node-operators-zh\">nt\u003C\u002Fa> 分工做根因定位。這種設計的重點，不是把人趕走，而是把最耗時的搜尋和比對交給模型。\u003C\u002Fp>\u003Cul>\u003Cli>異常發現：時間序列模型先抓波動\u003C\u002Fli>\u003Cli>問題定界：下鑽分析配合日誌聚類\u003C\u002Fli>\u003Cli>根因定位：多Agent分工查線索\u003C\u002Fli>\u003Cli>平台落地：接到異常處置平台，形成閉環\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>多Agent的重點，不是多，是分工\u003C\u002Fh2>\u003Cp>很多人聽到多Agent，第一個反應是「是不是很多模型一起聊天」。講白了，這種想像太表面。真正能落地的多Agent系統，重點是角色切分。每個 Agent 做一件事，然後把結果串起來。\u003C\u002Fp>\u003Cp>在異常處置裡，這種分工很實用。有的 Agent 看指標。有的 Agent 查日誌。有的 Agent 負責工具呼叫。有的 Agent 整理證據，拼出因果鏈。這樣做的好處很明顯。模型不用一次吞下全部上下文。工程上也比較好控權限、審計和工具邊界。\u003C\u002Fp>\u003Cp>這次分享的講者是\u003Ca href=\"https:\u002F\u002Fwww.aliyun.com\u002F\" target=\"_blank\" rel=\"noopener\">阿里雲\u003C\u002Fa>算法專家張穎瑩。她在智能運維領域做了8年，長期支援 MaxCompute、Fli\u003Ca href=\"\u002Fnews\u002Fbuild-crypto-ai-agent-bankr-zerion-zh\">nk\u003C\u002Fa>、DataWorks、PAI 等產品。她也參與過\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Falibaba\u002FSREWorks\" target=\"_blank\" rel=\"noopener\">SREWorks\u003C\u002Fa>開源大資料運維平台開發，還參與中國信通院《智能運維能力成熟度模型》標準編寫。這種背景，代表她講的不是紙上談兵。\u003C\u002Fp>\u003Cblockquote>“用產品和服務支撐計算平台 MaxCompute、Flink、Dataworks、PAI 等多個大數據&amp;AI產品的智能化運維。” —— 張穎瑩，阿里雲計算平台智能運維算法團隊負責人\u003C\u002Fblockquote>\u003Cp>這句話很直白。它把目標講清楚了。不是做一個漂亮模型，而是把模型塞進產品鏈路，持續處理線上問題。這才是企業最在意的地方。\u003C\u002Fp>\u003Ch2>和傳統AIOps比，差在閉環速度\u003C\u002Fh2>\u003Cp>傳統AIOps常見做法，是告警降噪、異常偵測、事件關聯。這些能力有用，但到根因定位時，常常還是要人接手。多Agent方案想做的事，是把「從告警到解釋」這段路縮短。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775496623820-og9d.png\" alt=\"AI異常處置走向多Agent協作\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>如果把流程攤開看，差別會很明顯。傳統流程裡，告警出來後，工程師可能要花 30 分鐘到數小時排查。AI 流程先把異常抓出來，再自動下鑽和聚類，先把候選範圍縮小。多Agent 流程則是讓不同角色並行工作，少掉很多單線排查的等待時間。\u003C\u002Fp>\u003Cp>阿里雲這次還提到工具箱建設。這點很現實。大模型再會講，如果拿不到監控、日誌、配置、變更紀錄，推理品質就會掉。工具越完整，Agent 越像真的運維同事，而不是只會講建議的聊天框。\u003C\u002Fp>\u003Cul>\u003Cli>傳統流程：人工看告警，常耗時 30 分鐘以上\u003C\u002Fli>\u003Cli>AI流程：先偵測，再下鑽，再聚類\u003C\u002Fli>\u003Cli>多Agent流程：並行查線索，減少等待\u003C\u002Fli>\u003Cli>平台化流程：把經驗沉澱成工具箱\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這也解釋了為什麼現在很多企業不缺模型，缺的是應用框架。模型要接權限系統、觀測系統、工單系統。能接進生產鏈路，才有機會把「發現問題」推進到「解決問題」。\u003C\u002Fp>\u003Ch2>廣州站透露的，是更務實的方向\u003C\u002Fh2>\u003Cp>這場分享放在XCOPS廣州站，訊號很清楚。AI運維已經不是「要不要做」的階段，而是「怎麼做才穩」的階段。大會議程還提到垂類Agent、人機協作、資料庫自治、金融核心改造。這代表業界關注點已經從單點模型，轉向系統級交付。\u003C\u002Fp>\u003Cp>再看張穎瑩的履歷，也很有說服力。她帶隊拿過ICASSP國際智能運維演算法大賽冠軍，研究成果也被 ICLR、KDD、VLDB、SIGMOD、ICDE、WWW、CIKM、ICASSP 等國際會議接收。對一個運維團隊來說，這種科研和工程雙線並進的背景，不算常見。\u003C\u002Fp>\u003Cp>我覺得，這次公開資訊最重要的地方，是它把問題講得很清楚。現在不是「模型能不能偵測異常」。而是「模型能不能在 5 分鐘內把異常說清楚」。這會直接影響運維團隊怎麼分工，也會影響監控產品怎麼設計。\u003C\u002Fp>\u003Cp>對正在做AIOps或資料平台自治的團隊，我的建議很直接。先別急著再加告警規則。先把日誌、指標、變更、拓樸、工單串起來。先做出一條能驗證的異常處置閉環。誰先跑通，誰就先少掉一堆夜班苦工。\u003C\u002Fp>\u003Ch2>這波變化，其實有產業背景\u003C\u002Fh2>\u003Cp>AI進運維，不是突然冒出來的。它是被線上系統逼出來的。雲端服務越多，元件越多，故障樣態就越碎。以前一個服務掛掉，人工看幾個節點就懂。現在一個問題可能牽動多個叢集、多條資料管線，還有跨區部署。\u003C\u002Fp>\u003Cp>所以，AIOps 的價值也在變。早期大家想解決的是告警太多。後來變成事件關聯。現在更進一步，是希望系統自己做初步判讀。這也是為什麼多Agent、日誌聚類、下鑽分析會一起出現。它們不是獨立功能，而是同一條流程的不同段落。\u003C\u002Fp>\u003Cp>從市場角度看，這種能力很可能先在大資料、AI 平台、金融核心系統落地。因為這些場景對停機最敏感，也最怕人工慢半拍。對一般中小型系統來說，可能還不需要這麼重的架構。但只要系統規模一上來，這些工具就會變得很實際。\u003C\u002Fp>\u003Cp>如果你是工程團隊，現在就該問一個問題：你的監控系統，能不能在 5 分鐘內給出 3 個可驗證的根因候選？如果答案還不行，那就代表還有很大的自動化空間。\u003C\u002Fp>\u003Ch2>接下來，看誰先把閉環做穩\u003C\u002Fh2>\u003Cp>我的判斷很直接。接下來 12 個月，真正有價值的不是更多告警，而是更快的根因定位。誰能把異常偵測、日誌聚類、多Agent 推理、工單處理串成一條鏈，誰就能把維運成本壓下來。\u003C\u002Fp>\u003Cp>如果你在做SRE、AIOps、資料平台，現在就可以開始盤點三件事。第一，監控資料夠不夠完整。第二，日誌和變更紀錄能不能打通。第三，現有流程能不能讓 Agent 介入。這三件事做完，才有機會把AI真的接進運維。\u003C\u002Fp>\u003Cp>講白了，未來不是看誰模型名字比較炫。是看誰能在真實伺服器環境裡，5 分鐘內把問題講清楚。這件事很土，但很值錢。\u003C\u002Fp>","XCOPS廣州站揭露阿里雲AIOps路線：異常偵測、日誌聚類、多Agent根因定位，正把維運流程做成自動化閉環。","zhuanlan.zhihu.com","https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2022978898300792880",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775496631661-ga19.png","industry","zh","4bbed30b-b804-453b-b8d2-89b7719c7c48",[17,18,19,20,21,22,23,24,25],"AI異常處置","多Agent","AIOps","根因定位","智能運維","阿里雲","XCOPS","日誌聚類","異常偵測",3,"2026-04-04T00:06:35.169674+00:00","2026-04-06T17:25:13.634127+00:00",{"tags":30,"relatedLang":33,"relatedPosts":37},[31],{"name":19,"slug":32},"aiops",{"id":15,"slug":34,"title":35,"language":36},"ai-anomaly-response-multi-agent-root-cause-en","AI异常处置正在变成多Agent协作","en",[38,44,50,56,62,68],{"id":39,"slug":40,"title":41,"cover_image":42,"image_url":42,"created_at":43,"category":13},"21e55851-9929-4b8c-86a1-e97fe2524a50","deepmind-veterans-are-leaving-london-zh","DeepMind老兵為何離開倫敦","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782777778486-vnfd.png","2026-06-30T00:02:28.609027+00:00",{"id":45,"slug":46,"title":47,"cover_image":48,"image_url":48,"created_at":49,"category":13},"35fe38fc-6982-4212-9c82-b0704fd4fdb1","bitcoin-price-page-risk-asset-market-signal-zh","比特幣價格頁面證明，市場仍把 BTC 當風險資產","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782776871942-e9s9.png","2026-06-29T23:47:26.503131+00:00",{"id":51,"slug":52,"title":53,"cover_image":54,"image_url":54,"created_at":55,"category":13},"50bc0298-8e9e-4f9a-90a6-d9865c3702e0","sora-smash-ultimate-final-dlc-pick-balanced-zh","索拉是《任天堂明星大亂鬥 特別版》最適合收官的 DLC，強但不破壞平衡","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782775071368-9ydr.png","2026-06-29T23:17:22.24145+00:00",{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":13},"5e307407-6df6-4673-8eef-2164076e5934","openclaw-135000-star-saas-security-crisis-zh","OpenClaw 13.5 萬星後爆出 SaaS 安全危機","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782771466079-ukkv.png","2026-06-29T22:17:15.984161+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":13},"6e389144-3e7d-422d-af34-b7d88d9504dd","anthropic-ipo-965b-valuation-sec-filing-zh","Anthropic 9650億估值啟動 IPO","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782770564309-c9ef.png","2026-06-29T22:02:19.440318+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":13},"475c6c43-bedb-4859-80e4-3e605d347759","hp-openai-frontier-partnership-zh","HP 攜手 OpenAI 擴大 Frontier 佈局","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782766965484-ys2z.png","2026-06-29T21:02:22.192735+00:00",[75,80,85,90,95,100,105,110,115,120],{"id":76,"slug":77,"title":78,"created_at":79},"ee073da7-28b3-4752-a319-5a501459fb87","ai-in-2026-what-actually-matters-now-zh","2026 AI 真正重要的事","2026-03-26T07:09:12.008134+00:00",{"id":81,"slug":82,"title":83,"created_at":84},"83bd1795-8548-44c9-9a7e-de50a0923f71","trump-ai-framework-power-speech-state-preemption-zh","川普 AI 框架瞄準電力、言論與州權","2026-03-26T07:12:18.695466+00:00",{"id":86,"slug":87,"title":88,"created_at":89},"ea6be18b-c903-4e54-97b7-5f7447a612e0","nvidia-gtc-2026-big-ai-announcements-zh","NVIDIA GTC 2026 重點拆解","2026-03-26T07:14:26.62638+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"4bcec76f-4c36-4daa-909f-54cd702f7c93","claude-users-spreading-out-and-getting-better-zh","Claude 用戶更分散，也更會用","2026-03-26T07:22:52.325888+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"bd903b15-2473-4178-9789-b7557816e535","openclaw-raises-hard-question-for-ai-models-zh","OpenClaw 逼問 AI 模型價值","2026-03-26T07:24:54.707486+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"eeac6b9e-ad9d-4831-8eec-8bba3f9bca6a","gap-google-gemini-checkout-fashion-search-zh","Gap 把結帳搬進 Gemini","2026-03-26T07:28:23.937768+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"0740e53f-605d-4d57-8601-c10beb126f3c","google-pushes-gemini-transition-to-march-2026-zh","Google 把 Gemini 轉換延到 2026 年 3…","2026-03-26T07:30:12.825269+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"e660d801-2421-4529-8fa9-86b82b066990","metas-llama-4-benchmark-scandal-gets-worse-zh","Meta Llama 4 分數風波又擴大","2026-03-26T07:34:21.156421+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"183f9e7c-e143-40bb-a6d5-67ba84a3a8bc","accenture-mistral-ai-sovereign-enterprise-deal-zh","Accenture 攜手 Mistral AI 賣主權 AI","2026-03-26T07:38:14.818906+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"191d9b1b-768a-478c-978c-dd7431a38149","mistral-ai-faces-its-hardest-year-yet-zh","Mistral AI 迎來最硬的一年","2026-03-26T07:40:23.716374+00:00"]