[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-gke-system-metrics-tpu-hpa-cloud-monitoring-zh":3,"article-related-gke-system-metrics-tpu-hpa-cloud-monitoring-zh":33,"series-tools-3c99ee7a-64ef-459f-9cd2-6fc420bd9e4b":80},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":25,"views":29,"created_at":30,"published_at":31,"topic_cluster_id":32},"3c99ee7a-64ef-459f-9cd2-6fc420bd9e4b","gke-system-metrics-tpu-hpa-cloud-monitoring-zh","GKE 系統指標開始看見 TPU 與 HPA","\u003Cp data-speakable=\"summary\">\u003Ca href=\"\u002Ftag\u002Fgoogle-cloud\">Google Cloud\u003C\u002Fa> 把 GKE 系統指標接進 Cloud Monitoring，讓 TPU、加速器和 HPA 的狀態能直接查。\u003C\u002Fp>\u003Cp>說真的，這次更新很實用。\u003Ca href=\"https:\u002F\u002Fcloud.google.com\u002Fmonitoring\" target=\"_blank\" rel=\"noopener\">Cloud Monitoring\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fcloud.google.com\u002Fkubernetes-engine\" target=\"_blank\" rel=\"noopener\">Google Kubernetes Engine\u003C\u002Fa> 的系統指標，現在把 TPU 分區、slice 形成時間、加速器使用率，還有 HPA 推薦延遲都攤開來看。文件頁面最後生成時間是 \u003Ca href=\"\u002Fnews\u002Fcloudflare-q1-2026-revenue-jumps-34-to-6398m-zh\">2026\u003C\u002Fa>-06-18 17:12:37 UTC，很多指標採樣間隔是 60 秒。\u003C\u002Fp>\u003Cp>這種資料不是拿來看爽的。它直接影響你怎麼抓瓶頸，怎麼設告警，怎麼判斷是 pod 爆了，還是 TPU slice 卡住了。講白了，就是把原本藏在底層的東西，變成你能查、能畫圖、能告警的資料。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>指標\u003C\u002Fth>\u003Cth>階段\u003C\u002Fth>\u003Cth>型別\u003C\u002Fth>\u003Cth>採樣間隔\u003C\u002Fth>\u003Cth>可見延遲\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>accelerator\u002Fpartition\u002Fstate\u003C\u002Ftd>\u003Ctd>BETA\u003C\u002Ftd>\u003Ctd>GAUGE \u002F INT64\u003C\u002Ftd>\u003Ctd>60 秒\u003C\u002Ftd>\u003Ctd>最多 120 秒\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>accelerator\u002Fslice\u002Fformation_durations\u003C\u002Ftd>\u003Ctd>BETA\u003C\u002Ftd>\u003Ctd>CUMULATIVE \u002F DISTRIBUTION\u003C\u002Ftd>\u003Ctd>60 秒\u003C\u002Ftd>\u003Ctd>最多 120 秒\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>autoscaler\u002Flatencies\u002Fper_hpa_recommendation_scale_latency_seconds\u003C\u002Ftd>\u003Ctd>GA\u003C\u002Ftd>\u003Ctd>GAUGE \u002F DOUBLE\u003C\u002Ftd>\u003Ctd>60 秒\u003C\u002Ftd>\u003Ctd>最多 20 秒\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>container\u002Faccelerator\u002Fduty_cycle\u003C\u002Ftd>\u003Ctd>GA\u003C\u002Ftd>\u003Ctd>GAUGE \u002F INT64\u003C\u002Ftd>\u003Ctd>60 秒\u003C\u002Ftd>\u003Ctd>最多 120 秒\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>container\u002Fcpu\u002Fcore_usage_time\u003C\u002Ftd>\u003Ctd>GA\u003C\u002Ftd>\u003Ctd>CUMULATIVE \u002F DOUBLE\u003C\u002Ftd>\u003Ctd>60 秒\u003C\u002Ftd>\u003Ctd>依指標而定\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>Google 這次到底露出了什麼\u003C\u002Fh2>\u003Cp>\u003Ca href=\"https:\u002F\u002Fdocs.cloud.google.com\u002Fmonitoring\u002Fapi\u002Fmetrics_kubernetes\" target=\"_blank\" rel=\"noopener\">GKE system metrics 參考頁\u003C\u002Fa>列出的是啟用後才會出現的系統指標。它們被放在 Kubernetes 指標家族裡，並標示成 GA 或 BETA。這代表 \u003Ca href=\"\u002Ftag\u002Fgoogle\">Google\u003C\u002Fa> 不是只給你一個總覽，而是把更細的內部狀態也端出來。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782137889532-yct9.png\" alt=\"GKE 系統指標開始看見 TPU 與 HPA\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這件事對雲端維運很重要。以前你常常只能看 CPU、memory、pod 數量。現在你還能看 partition、slice、accelerator duty cycle、memory bandwidth 和記憶體總量。對 \u003Ca href=\"\u002Ftag\u002Fgpu\">GPU\u003C\u002Fa> 或 TPU-heavy 工作負載來說，這些資料比單純的 node health 有用太多。\u003C\u002Fp>\u003Cp>文件也把幾個實作細節講得很直白。像是 GAUGE、CUMULATIVE、DISTRIBUTION 這些型別行為不同。字串型指標要先用 MQL 轉換，才能拿去畫圖。單位則要看 \u003Ca href=\"https:\u002F\u002Fcloud.google.com\u002Fmonitoring\u002Fapi\u002Fref_v3\u002Frest\u002Fv3\u002Fprojects.metricDescriptors\" target=\"_blank\" rel=\"noopener\">MetricDescriptor\u003C\u002Fa> 的定義。\u003C\u002Fp>\u003Cul>\u003Cli>預設是寫到 project 層級。\u003C\u002Fli>\u003Cli>字串型指標要先用 MQL。\u003C\u002Fli>\u003Cli>有些指標最多晚 240 秒才看得到。\u003C\u002Fli>\u003Cli>型別字串都用 \u003Ccode>kubernetes.io\u002F\u003C\u002Fcode> 前綴。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>TPU 指標把硬體狀態攤開了\u003C\u002Fh2>\u003Cp>最有意思的是 TPU 這塊。Google 把 accelerator partition、slice、metadata 都列出來，代表你不只知道 TPU 有沒有在跑，還能知道它是健康、異常，還是已經失敗。這種粒度很少見，至少在一般雲端監控裡不常看到。\u003C\u002Fp>\u003Cp>對訓練模型的團隊來說，這差很多。TPU 排程很吃拓樸，slice 形成也很吃時間。你如果只看 pod 層級，很容易誤判成應用慢。實際上可能是硬體 slice 還沒組好，或 partition 狀態已經不對了。\u003C\u002Fp>\u003Cp>這裡可以直接看出 Google 想讓你觀察什麼。它不是只想告訴你「有沒有資源」。它想告訴你「資源怎麼組起來」、「組多久」、「拆多久」、「哪個 slice 出事」。\u003C\u002Fp>\u003Cblockquote>“The AI industry is at an inflection point, and the next wave of progress will be driven by systems that can reason, plan and act.” — Thomas Kurian, Google Cloud Next 2024 keynote\u003C\u002Fblockquote>\u003Cp>Kurian 講的是 AI 系統，但放到這裡也通。模型越大，底層基礎設施就越不能只看表面數字。你需要更細的觀測資料，才知道問題卡在哪一層。\u003C\u002Fp>\u003Cp>幾個 TPU 相關指標很值得記一下：\u003C\u002Fp>\u003Cul>\u003Cli>\u003Ccode>accelerator\u002Fpartition\u002Fstate\u003C\u002Fcode> 用 1 或 0 表示分區健康。\u003C\u002Fli>\u003Cli>\u003Ccode>accelerator\u002Fslice\u002Fformation_durations\u003C\u002Fcode> 看 slice 組裝花多久。\u003C\u002Fli>\u003Cli>\u003Ccode>accelerator\u002Fslice\u002Fdeformation_durations\u003C\u002Fcode> 看拆解和釋放資源花多久。\u003C\u002Fli>\u003Cli>\u003Ccode>accelerator\u002Fslice\u002Fmetadata\u003C\u002Fcode> 會吐出 slice 和 partition 的組合資訊。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>HPA 和 autoscaler 才是多數團隊會先用到的\u003C\u002Fh2>\u003Cp>如果你跑的是一般應用，不是 TPU 訓練，autoscaler 指標反而更直接。Google 這次放出推薦 CPU request、推薦 memory bytes，還有 HPA recommendation latency。這些數字能直接看出你的 scaling 邏輯有沒有跟上負載變化。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782137896713-rjfj.png\" alt=\"GKE 系統指標開始看見 TPU 與 HPA\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>其中最實用的是 latency。文件定義得很清楚，它是從 metrics 產生，到 recommendation 套用到 apiserver 的時間差。這不是模糊的 proxy，而是 autoscaling 延遲本身。對要壓縮反應時間的團隊來說，這種資料很值錢。\u003C\u002Fp>\u003Cp>如果把幾個指標放一起看，差異就更明顯了。快的指標適合即時判斷，慢的指標適合做趨勢分析。你可以把它們分成兩種用途，不要混著用。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Ccode>autoscaler\u002Flatencies\u002Fper_hpa_recommendation_scale_latency_seconds\u003C\u002Fcode> 是 GA，最多 20 秒延遲。\u003C\u002Fli>\u003Cli>\u003Ccode>autoscaler\u002Fcontainer\u002Fcpu\u002Fper_replica_recommended_request_cores\u003C\u002Fcode> 是 GA，最多 240 秒延遲。\u003C\u002Fli>\u003Cli>\u003Ccode>autoscaler\u002Fcontainer\u002Fmemory\u002Fper_replica_recommended_request_bytes\u003C\u002Fcode> 是 GA，也可能晚 240 秒。\u003C\u002Fli>\u003Cli>\u003Ccode>container\u002Faccelerator\u002Fduty_cycle\u003C\u002Fcode> 是 GA，60 秒採樣，適合看穩態使用率。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這種差異會直接影響告警設計。20 秒內出現的資料，適合做比較快的回饋迴路。240 秒才出現的資料，就比較像是容量規劃工具。拿錯用途，告警就會變得很吵。\u003C\u002Fp>\u003Cp>另外，文件把 label 欄位也列得很細。像 \u003Ccode>partition_id\u003C\u002Fcode>、\u003Ccode>slice_topology\u003C\u002Fcode>、\u003Ccode>accelerator_type\u003C\u002Fcode>、\u003Ccode>block_id\u003C\u002Fcode>，都能拿來縮小查詢範圍。這對排障很重要，因為你不會想在整個叢集裡大海撈針。\u003C\u002Fp>\u003Ch2>跟其他雲端監控比，Google 走得更細\u003C\u002Fh2>\u003Cp>如果拿這次更新去比 \u003Ca href=\"\u002Ftag\u002Faws\">AWS\u003C\u002Fa> 和 Azure 的常見做法，差別很明顯。多數平台先給你節點、pod、磁碟、網路這幾層。Google 這次直接把硬體分區和 autoscaler 內部流程也放進來，觀測層次更深。\u003C\u002Fp>\u003Cp>這不代表別家做得差。只是 Google 很明顯在押一個方向：把 Kubernetes 的系統層資料，和加速器硬體資料綁在一起。對跑 AI 訓練、推論，或混合工作負載的團隊，這會比單純看 node CPU 更有用。\u003C\u002Fp>\u003Cp>你可以把這次更新理解成一個實際比較。不是誰比較炫，而是誰給的\u003Ca href=\"\u002Fnews\u002Fdefi-technologies-nasdaq-test-profit-growth-signals-zh\">訊號\u003C\u002Fa>更接近故障現場。\u003C\u002Fp>\u003Cul>\u003Cli>傳統雲端監控：偏 node、pod、磁碟、網路。\u003C\u002Fli>\u003Cli>GKE 系統指標：再加上 TPU partition、slice、autoscaler latency。\u003C\u002Fli>\u003Cli>對 AI 工作負載：後者更接近真實瓶頸。\u003C\u002Fli>\u003Cli>對一般 Web 服務：HPA 和 CPU 指標就已經很有用。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這也解釋了為什麼 Cloud Monitoring 要把資料做成 60 秒粒度。它不是要取代你的應用日誌，而是補上系統層的節奏。當延遲、形成時間、推薦時間都能量化，維運團隊就比較不會只能靠猜。\u003C\u002Fp>\u003Ch2>這背後其實是 GKE 觀測模型在變\u003C\u002Fh2>\u003Cp>這次文件更新還有一個背景意義。GKE 不再只是一個跑容器的地方。它慢慢變成一個能理解硬體拓樸、加速器狀態、以及 autoscaling 內部決策的系統。這對雲端原生團隊來說，算是很務實的變化。\u003C\u002Fp>\u003Cp>以前很多團隊會把監控拆成三套。基礎設施看一套，應用看一套，AI 平台再看一套。問題是三套資料常常對不起來。現在如果 GKE 系統指標能直接進 Cloud Monitoring，至少你少了一層拼接成本。\u003C\u002Fp>\u003Cp>我覺得真正有價值的地方，不是多了幾個圖表，而是你能更快回答這三個問題：資源有沒有健康、autoscaler 有沒有慢、TPU slice 有沒有卡住。這三題答不出來，很多故障都只能靠猜。\u003C\u002Fp>\u003Cp>如果你手上有 GKE 叢集，特別是有 TPUs 或高頻 autoscaling，\u003Ca href=\"\u002Fnews\u002Fdefi-institutional-wave-hidden-in-apps-zh\">下一\u003C\u002Fa>步很簡單：先確認這些 system metrics 有沒有啟用，再把 latency、partition state、duty cycle 拉進 dashboard。沒有這些資料，你的監控還是有點半套。\u003C\u002Fp>\u003Ch2>結論：先把這些指標接進告警\u003C\u002Fh2>\u003Cp>講白了，這次更新最值得做的事，不是先去背所有 metric 名稱，而是先挑三個。第一個看 HPA latency。第二個看 accelerator partition state。第三個看 duty cycle。這三個一起上，通常就能抓到大半問題。\u003C\u002Fp>\u003Cp>如果你是平台工程師，我會建議先把這些指標接到現有 dashboard。接著再補一條告警：當 slice 形成時間拉長，或 HPA latency 超過平常值時，就先通知。這種做法比等使用者報 bug 實際多了。\u003C\u002Fp>\u003Cp>接下來幾個月，我會觀察兩件事。第一，Google 會不會把更多 TPU 和 autoscaler 細節放進來。第二，團隊會不會真的把這些指標用在告警和容量規劃，而不是只放著好看。你如果現在就在跑 GKE，最好先把這頁文件打開，直接看自己的監控缺了什麼。\u003C\u002Fp>","Google Cloud 在 Cloud Monitoring 裡補上 GKE 系統指標，現在能看 TPU 分區、加速器狀態、HPA 延遲，採樣多為 60 秒。","docs.cloud.google.com","https:\u002F\u002Fdocs.cloud.google.com\u002Fmonitoring\u002Fapi\u002Fmetrics_kubernetes",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782137889532-yct9.png","tools","zh","416d35fb-69b8-4d1c-a423-3fe0d54d502d",[17,18,19,20,21,22,23,24],"GKE","Google Cloud","Cloud Monitoring","TPU","HPA","Kubernetes","autoscaler","observability",[26,27,28],"GKE 系統指標已能在 Cloud Monitoring 看到 TPU、加速器和 HPA 資料。","60 秒採樣和不同延遲，會直接影響告警與趨勢分析。","TPU partition、slice 和 autoscaler latency，是這次最值得先接進 dashboard 的三類指標。",0,"2026-06-22T14:17:42.722979+00:00","2026-06-22T14:17:42.702+00:00","6fd09466-040f-40cf-9dd6-ae611259f8b6",{"tags":34,"relatedLang":39,"relatedPosts":43},[35,37],{"name":20,"slug":36},"tpu",{"name":18,"slug":38},"google-cloud",{"id":15,"slug":40,"title":41,"language":42},"gke-system-metrics-tpu-hpa-cloud-monitoring-en","GKE system metrics expose TPU and HPA data","en",[44,50,56,62,68,74],{"id":45,"slug":46,"title":47,"cover_image":48,"image_url":48,"created_at":49,"category":13},"1882ceb9-a52c-4d38-9666-4749de946557","rust-forum-checkins-turn-vague-work-into-plans-zh","Rust 週更提問把模糊工作變計畫","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782151394283-xx0w.png","2026-06-22T18:02:50.300192+00:00",{"id":51,"slug":52,"title":53,"cover_image":54,"image_url":54,"created_at":55,"category":13},"00660844-e1c2-4b19-bf78-df668b53100a","googles-99-speaker-turns-home-into-gemini-chat-zh","Google 的 $99 喇叭把家變 Gemini 對話","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782122610826-uebi.png","2026-06-22T10:03:02.124151+00:00",{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":13},"551239ec-2ece-4733-989a-ff59d6b8141b","install-openclaw-windows-powershell-wsl2-zh","Windows PowerShell 安裝 OpenClaw 成果版","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782093775396-g5vp.png","2026-06-22T02:02:28.203938+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":13},"27b9156f-d888-4fb6-8922-a607e16ad7c4","anthropic-github-repositories-claude-code-push-zh","Anthropic GitHub 91 個倉庫，Claude Code 加速","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782082984505-d1hq.png","2026-06-21T23:02:28.590393+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":13},"142b6b02-b02b-40a9-a9f5-e3e4807ef3d4","cudf-turns-pandas-code-into-gpu-runs-zh","cuDF 讓 pandas 直接跑上 GPU","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782058732771-box2.png","2026-06-21T16:18:27.113079+00:00",{"id":75,"slug":76,"title":77,"cover_image":78,"image_url":78,"created_at":79,"category":13},"4860bd59-d197-4c32-a4aa-e3f53aa08d7a","bigquery-vectorized-python-udfs-arrow-zh","BigQuery Arrow 向量化 Python UDF 實作","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782027159471-91jd.png","2026-06-21T07:32:19.997774+00:00",[81,86,91,96,101,106,111,116,121,126],{"id":82,"slug":83,"title":84,"created_at":85},"855cd52f-6fab-46cc-a7c1-42195e8a0de4","surepath-real-time-mcp-policy-controls-zh","SurePath 推出即時 MCP 政策控管","2026-03-26T07:57:40.77233+00:00",{"id":87,"slug":88,"title":89,"created_at":90},"9b19ab54-edef-4dbd-9ce4-a51e4bae4ebb","mcp-in-2026-the-ai-tool-layer-teams-use-zh","2026 年 MCP：團隊真的在用的 AI 工具層","2026-03-26T08:01:46.589694+00:00",{"id":92,"slug":93,"title":94,"created_at":95},"af9c46c3-7a28-410b-9f04-32b3de30a68c","prompting-in-2026-what-actually-works-zh","2026 提示工程，真正有用的是什麼","2026-03-26T08:08:12.453028+00:00",{"id":97,"slug":98,"title":99,"created_at":100},"05553086-6ed0-4758-81fd-6cab24b575e0","garry-tan-open-sources-claude-code-toolkit-zh","Garry Tan 開源 Claude Code 工具包","2026-03-26T08:26:20.068737+00:00",{"id":102,"slug":103,"title":104,"created_at":105},"042a73a2-18a2-433d-9e8f-9802b9559aac","github-ai-projects-to-watch-in-2026-zh","2026 必看 20 個 GitHub AI 專案","2026-03-26T08:28:09.619964+00:00",{"id":107,"slug":108,"title":109,"created_at":110},"a5f94120-ac0d-4483-9a8b-63590071ac6a","claude-code-vs-cursor-2026-zh","Claude Code 與 Cursor 深度對比：202…","2026-03-26T13:27:14.279193+00:00",{"id":112,"slug":113,"title":114,"created_at":115},"0975afa1-e0c7-4130-a20d-d890eaed995e","practical-github-guide-learning-ml-2026-zh","2026 機器學習入門 GitHub 實用指南","2026-03-27T01:16:49.712576+00:00",{"id":117,"slug":118,"title":119,"created_at":120},"bfdb467a-290f-4a80-b3a9-6f081afb6dff","aiml-2026-student-ai-ml-lab-repo-review-zh","AIML-2026：像課綱的學生實驗 Repo","2026-03-27T01:21:51.467798+00:00",{"id":122,"slug":123,"title":124,"created_at":125},"80cabc3e-09fc-4ff5-8f07-b8d68f5ae545","ai-trending-github-repos-and-research-feeds-zh","AI Trending：把 AI 資源收成一張表","2026-03-27T01:31:35.262183+00:00",{"id":127,"slug":128,"title":129,"created_at":130},"3ce6e6e2-bac5-463e-9f8d-45caabcc61f7","awesome-ai-for-science-research-tools-map-zh","AI 科研工具清單，開始像地圖了","2026-03-27T01:46:50.521945+00:00"]