mk-brain

校準 AI 的信心：SaySelf 框架如何讓大型語言模型學會自我懷疑

大型語言模型（LLM）的幻覺問題，核心不在於答錯，而是它們對自己的不確定性毫無察覺。SaySelf 框架透過獨特的兩階段訓練，不僅教導模型評估推理品質，更校準其信心表達，這對於打造真正可信賴的 AI 系統至關重要，讓 AI 從「自信滿滿」走向「深思熟慮」。

江中喬

03 6月 2026 • 6 min read

大型語言模型（LLM）最危險的缺陷，並非偶爾的錯誤，而是其「過度自信」的幻覺。模型往往不知道自己何時不確定，這嚴重阻礙了它們在關鍵任務中的應用。要建構真正可信賴、可部署的 AI 系統，關鍵不僅是提升準確率，而是必須將「信心校準」（confidence calibration）深刻地整合到模型的訓練與推理機制中。讓 AI 學會自我懷疑，是它從玩具走向工具的必經之路。

幻覺的根源：為何 LLM 不知道自己不知道？

我們常談論 LLM 的幻覺（hallucination）問題，但其核心挑戰比單純「答錯」更為棘手。傳統上，我們可能會觀察模型輸出特定詞彙的機率（token probabilities）來猜測它的「信心」，但大量研究表明，這種內部機率與模型的實際準確度之間校準得非常差。一個模型可以用 99% 的機率生成一個完全錯誤的答案，聽起來自信滿滿，實際上卻是無中生有。這使得在金融、醫療、法律等高風險領域部署 LLM 變得極其危險。

問題的根源在於，現有的訓練方法，如典型的監督式微調（Supervised Fine-Tuning, SFT）與基於人類回饋的強化學習（RLHF），主要獎勵「正確」或「討喜」的答案。然而，它們卻很少直接訓練模型去評估自身知識的邊界，或辨識其推理過程中的潛在缺陷。

換句話說，模型學會了如何生成流暢、看似合理的文本，卻沒有學會內在的自我審查機制。因此，當面對不確定或模稜兩可的問題時，它傾向於「填補空白」而不是表達懷疑，這正是「過度自信」的由來。

SaySelf 框架：如何教 AI 學會自我反思？

最近一篇名為《SaySelf: Teaching Large Language Models to Express Confidence and Rationale》的論文提出了一個頗具啟發性的訓練框架，旨在直接解決這個信心誤判的問題。其核心思想不是間接猜測模型的信心，而是直接教導模型生成準確的信心評分，並附上自我反思的理由。這個框架主要包含兩個精心設計的階段：

SFT 階段：學習辨識推理瑕疵
研究團隊首先建立了一個特殊的資料集。他們針對一個問題，利用模型生成多個不同的思維鏈（Chain-of-Thought, CoT）推理路徑。接著，他們利用更強大的模型（如 GPT-4）來比較這些路徑與標準答案的差異，並生成一份「自我反思報告」，詳細說明某個推理鏈錯在哪裡、遺漏了什麼。模型在這個階段進行 SFT，學習同時輸出答案、信心分數、以及這份反思報告。這等於是讓模型學習成為自己推理過程的「偵錯員」。
RL 階段：懲罰不誠實的信心
僅有 SFT 是不夠的，因為模型可能會學會一套說詞，但信心分數仍然不準。因此，第二階段引入了強化學習。研究者設計了一個獎勵函數，該函數不僅獎勵正確答案，更重要的是，它會懲罰「過度自信」的錯誤答案與「過度悲觀」的正確答案。透過這種方式，模型被激勵去產生更誠實、校準得更好的信心分數。

這個方法的巧妙之處在於，它將抽象的「信心」概念轉化為一個具體的生成任務（產生反思報告）與一個可優化的數學目標（校準誤差）。實驗結果也相當顯著，在 Llama 2 的 7B 與 13B 模型上，SaySelf 框架成功將預期校準誤差（Expected Calibration Error, ECE）降低了最高達 38%，同時在 TriviaQA、AmbigQA 等多個問答資料集上保持了相當的準確性。

一個懂得在關鍵時刻表達「我不確定，因為我的推理基於一個未經驗證的假設…」的 AI，遠比一個總是自信滿滿卻可能誤導決策的 AI 更有價值。

信心校準的實務意義是什麼？

信心校準的價值遠不止是學術探討。在實務應用中，一個知道自己何時不可靠的模型，能從根本上改變我們與 AI 協作的方式。想像一下以下場景：

企業級 RAG 系統： 在檢索增強生成（RAG）應用中，模型需要判斷檢索到的文件是否足以回答問題。一個經過良好校準的模型可以明確指出：「根據目前的文件，我無法給出確定答案」，從而觸發重新檢索或將問題上報給人類專家，而不是基於不完整的資訊強行編造答案。
多 Agent 協作： 在複雜的 AI Agent 系統中，不同 Agent 需要相互協作。一個 Agent 如果能準確評估自己任務的完成品質與信心，就能為下游的 Agent 提供更可靠的輸入，避免錯誤在系統中級聯放大。
人機迴圈（Human-in-the-loop）： 當 AI 輔助醫生或律師工作時，最關鍵的就是知道何時需要人類介入。一個能主動標示出低信心回覆的系統，可以讓專業人士將注意力集中在最需要審查的地方，大幅提升工作效率與安全性。

像 SaySelf 這樣的框架，代表了 AI 發展的一個重要轉向：從單純追求性能指標的提升，轉向建構更誠實、更透明、更安全的系統。當模型不僅能給出答案，還能告訴我們它為何這麼認為、以及它對此有多大把握時，AI 才能真正成為我們在複雜決策中值得信賴的夥伴。

延伸閱讀

我是江中喬，專注於 AI Agent Architecture、Memory Governance 與 Cognitive Diversity，持續研究如何打造能夠長期協作、可信任且可治理的 AI 系統。

幻覺的根源：為何 LLM 不知道自己不知道？

SaySelf 框架：如何教 AI 學會自我反思？

信心校準的實務意義是什麼？

延伸閱讀

Sign up for more like this.