返回首頁

標籤

observability

Observability 關注的是從 logs、metrics、traces 到告警與自動修復,如何讓 production 狀態可被快速定位與理解。它攸關系統在高流量、異常與故障時的可用性,也影響維運是否能從被動排查走向主動處置。

11 篇文章

Dometrain 把系統設計變成營運模板
工具應用/6月24日

Dometrain 把系統設計變成營運模板

我把 Dometrain 的進階系統設計課拆成一份可抄模板,重點放在分散式狀態、發布安全、多租戶與營運操作。

Namastack 把 outbox 變穩定事件流
工具應用/6月20日

Namastack 把 outbox 變穩定事件流

我把 Namastack Outbox 拆成一套可直接抄進 Spring Boot 的可靠事件模式。

AI 讚美變成 production 債
產業動態/6月12日

AI 讚美變成 production 債

我把 New Relic 的調查拆成一份可直接套用的 AI code 上線防呆 playbook。

Anthropic 的 MCP 可觀測性做對了:真正的 agent ops 需…
產業動態/6月11日

Anthropic 的 MCP 可觀測性做對了:真正的 agent ops 需…

Anthropic 把 MCP 可觀測性放到核心是對的,因為 agent 平台需要看工具層級的故障,不是只看聊天指標。

AWS DevOps Agent 把事故排查變成三步
AI Agent/6月3日

AWS DevOps Agent 把事故排查變成三步

我拆 AWS DevOps Agent 的事故排查流程,順手整理成可直接複製的 incident triage 模板。

Flink Operator 1.15 把狀態變訊號
工具應用/5月29日

Flink Operator 1.15 把狀態變訊號

我把 Flink Kubernetes Operator 1.15.0 的 release notes 拆成一份可直接抄的 ops 模板,重點是 Conditions、logging、metrics、savepoint 與刪除流程。

為什麼 OpenTelemetry 贏了,Logs 輸掉了可觀測性戰爭
工具應用/5月24日

為什麼 OpenTelemetry 贏了,Logs 輸掉了可觀測性戰爭

OpenTelemetry 之所以成為新標準,是因為在微服務裡,traces 比 logs 更快找出故障根因。

MLOps 成本迷思讓 GPU 不再亂燒
工具應用/5月22日

MLOps 成本迷思讓 GPU 不再亂燒

拆掉「多買 GPU 就會更快」的迷思,給你一份可直接抄進團隊文件的 MLOps 成本控制模板。

Kubernetes v1.36 把發布說明變作戰手冊
工具應用/5月19日

Kubernetes v1.36 把發布說明變作戰手冊

我把 Kubernetes v1.36 拆成可執行的升級清單,最後附上可直接複製的團隊模板。

為什麼 Microsoft Agent Framework 的耐久工作流很重要
工具應用/5月12日

為什麼 Microsoft Agent Framework 的耐久工作流很重要

Microsoft Agent Framework 的耐久工作流,能把脆弱的 agent 串接變成可恢復、可觀測的狀態式系統。

NeuBird AI 推出 Falcon,主打自動維運
AI Agent/4月13日

NeuBird AI 推出 Falcon,主打自動維運

NeuBird AI 募得 1930 萬美元,推出 Falcon 與 FalconClaw,主打在 production 自動偵測、診斷與修復問題,想把維運從看告警變成直接處理。