On-call 的碎碎念問題,AI 可以解決

AI 當 on-call 的初篩守衛,不是為了省人力,而是為了保護人的判斷品質。

On-call 的碎碎念問題,AI 可以解決

問題不在告警多,在人的耐心有限

On-call 制度本身沒問題。問題是:當一個人輪到 on-call 時,他會進入「隨時準備」的心理狀態。這個狀態下,每一個告警、每一條日誌、每一個 metric spike,都會觸發他的注意力。即使大多數情況下是虛驚一場,但頻繁的中斷本身就是成本。

更糟的是,人在處理重複性的判斷時會疲勞。第十次檢查同樣的告警模式時,你的判斷品質已經下降了。但你還得回應,因為你是 on-call。這不是技術問題,是人的問題。

AI 當短期守衛的實用價值

Vincent 的觀察指向一個方向:讓 AI 先做初篩。

具體是什麼意思?不是 AI 替你完全解決問題。而是 AI 在告警進來的第一時間,就能判斷:

  • 這是已知的瞬時波動嗎?
  • 這個錯誤日誌是重複的嗎?
  • 這個告警的上下文資訊足夠判斷嚴重性嗎?
  • 需要人立刻介入嗎?

然後 AI 可以做三件事:自動執行簡單的修復(重啟服務、清快取、擴容),給出判斷理由,或者才去叫人。

關鍵是:AI 不會抱怨。它不會因為被叫醒第十次就煩躁。它不會在 Slack 上碎碎念「又是這個問題」。它就是冷靜地做判斷,把真正需要人類決策的事情拎出來。

這解決的是注意力稀缺,不是技術稀缺

我們經常把 on-call 的問題框架成「告警太多」或「系統不穩定」。但真實的痛點是另一層:人的專注力被碎片化

一個有經驗的工程師,他的判斷能力是寶貴的。但如果他 on-call 時每十分鐘被打斷一次,即使其中九次都是誤報,那一次的判斷也會受影響。這不是他的問題,是系統設計的問題。

AI 的作用就是把這層篩選做掉。不是為了省錢或省人力,而是為了保護人的判斷品質。

實現上的現實

這不是說部署一個通用 LLM 就能搞定。你需要:

  • 讓 AI 能讀懂你的告警規則和歷史數據
  • 給 AI 訪問權限去查日誌、metrics、部署狀態
  • 定義清楚「什麼情況下 AI 可以自動動手,什麼情況下只能提示」
  • 有降級方案——AI 判斷失誤時,人能快速接管

這些都不複雜,但需要仔細設計。最常見的坑是:AI 給出了漂亮的判斷,但人不知道它是怎麼判斷的,導致信任度低。

所以實作上,「解釋性」比「準確率」更重要。一個 80% 準確但能清楚說明理由的 AI,比 95% 準確但黑盒的系統更有用。

這是一個選擇

有些團隊會說:「我們的告警已經很精準了,根本不需要 AI。」可能是真的。但更多情況下,問題不在告警精準不精準,而在於人能承受多少次判斷。

如果你的 on-call 現在是「看起來忙,實際上大部分時間在做重複判斷」,那這個方向值得試。如果你的 on-call 已經很輕鬆,那可能真的不需要。

但我的觀察是:大多數團隊都高估了自己告警的精準度,低估了人的疲勞。


我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。

原始來源:https://www.threads.com/@vincent.chanw/post/DVrvFQMkvnf