On-call 的碎碎念問題，AI 可以解決

AI 當 on-call 的初篩守衛，不是為了省人力，而是為了保護人的判斷品質。

15 3月 2026 • 4 min read

問題不在告警多，在人的耐心有限

On-call 制度本身沒問題。問題是：當一個人輪到 on-call 時，他會進入「隨時準備」的心理狀態。這個狀態下，每一個告警、每一條日誌、每一個 metric spike，都會觸發他的注意力。即使大多數情況下是虛驚一場，但頻繁的中斷本身就是成本。

更糟的是，人在處理重複性的判斷時會疲勞。第十次檢查同樣的告警模式時，你的判斷品質已經下降了。但你還得回應，因為你是 on-call。這不是技術問題，是人的問題。

Vincent 的觀察指向一個方向：讓 AI 先做初篩。

具體是什麼意思？不是 AI 替你完全解決問題。而是 AI 在告警進來的第一時間，就能判斷：

然後 AI 可以做三件事：自動執行簡單的修復（重啟服務、清快取、擴容），給出判斷理由，或者才去叫人。

關鍵是：AI 不會抱怨。它不會因為被叫醒第十次就煩躁。它不會在 Slack 上碎碎念「又是這個問題」。它就是冷靜地做判斷，把真正需要人類決策的事情拎出來。

我們經常把 on-call 的問題框架成「告警太多」或「系統不穩定」。但真實的痛點是另一層：人的專注力被碎片化。

一個有經驗的工程師，他的判斷能力是寶貴的。但如果他 on-call 時每十分鐘被打斷一次，即使其中九次都是誤報，那一次的判斷也會受影響。這不是他的問題，是系統設計的問題。

AI 的作用就是把這層篩選做掉。不是為了省錢或省人力，而是為了保護人的判斷品質。

這不是說部署一個通用 LLM 就能搞定。你需要：

這些都不複雜，但需要仔細設計。最常見的坑是：AI 給出了漂亮的判斷，但人不知道它是怎麼判斷的，導致信任度低。

所以實作上，「解釋性」比「準確率」更重要。一個 80% 準確但能清楚說明理由的 AI，比 95% 準確但黑盒的系統更有用。

有些團隊會說：「我們的告警已經很精準了，根本不需要 AI。」可能是真的。但更多情況下，問題不在告警精準不精準，而在於人能承受多少次判斷。

如果你的 on-call 現在是「看起來忙，實際上大部分時間在做重複判斷」，那這個方向值得試。如果你的 on-call 已經很輕鬆，那可能真的不需要。

但我的觀察是：大多數團隊都高估了自己告警的精準度，低估了人的疲勞。

我是江中喬，一位具有 TPM 與產品管理背景的 AI 系統建構者，目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。