mk-brain

AI 的「我不知道」，比答對更重要：從信心分數到自我反思的信任躍升

大型語言模型（LLM）常過度自信，即使答案錯誤也理直氣壯。一篇最新研究指出，AI 的真正可靠性，不在於給出冰冷的信心分數，而是讓它學會「自我反思」，清楚解釋其不確定性的理由。這不僅是技術校準，更是建立可信任、可治理 AI 系統的關鍵一步，讓 AI 從黑箱神諭轉變為坦誠的協作夥伴。

江中喬

05 5月 2026 • 6 min read

在與大型語言模型（LLM）協作的日常中，我們最頭痛的問題之一，莫過於它們那種近乎人類的「過度自信」。無論答案精準無比或錯得離譜，LLM 往往都用同樣權威、篤定的語氣呈現。這種現象，我們稱之為「幻覺」（Hallucination），它不僅是技術挑戰，更是我們在關鍵任務中信任與部署 AI 的最大障礙。

過去，業界試圖解決這個問題的常見方法，是要求模型為答案提供一個「信心分數」（Confidence Score），例如 0 到 1 之間的一個數值。這在一定程度上提供了判斷依據，但很快我們就發現，一個孤立的數字遠遠不夠。95% 的信心究竟代表什麼？是基於單一、強力的證據，還是綜合了多個不甚可靠的來源？這個分數本身，就像另一個需要解讀的黑盒子，缺乏脈絡，也無法指導我們下一步該如何行動。

最近，一篇由史丹佛大學、普林斯頓大學與 Google DeepMind 共同發表的研究，為這個問題提出了一個更深刻、也更具實務意義的解方。我認為，這項工作真正抓住了 AI 可靠性的核心：重點不在於讓 AI 假裝全知全能，而在於讓它學會誠實地認知並表達自己的「知識缺口」。

從「信心分數」到「反思理由」

這篇論文提出的核心概念是，一個可靠的 AI 不應只給出信心分數，更應該生成「自我反思的理由」（Self-Reflective Rationales），解釋它為何有此信心，或為何感到不確定。這是一個根本性的轉變，從量化的單點輸出，走向了質化的脈絡解釋。

試想一下兩者的區別：

傳統方法：你問 AI 一個複雜的醫學問題，它回答後附上「信心：85%」。這個數字很難讓我們採取行動，我們不知道那 15% 的不確定性來自何處。
新方法：AI 同樣給出答案與 85% 的信心，但附上一段反思：「我之所以有此信心，是因為訓練資料中有多篇頂尖期刊的論文支持此觀點。然而，我也注意到有少數早期研究提出不同看法，且針對特定罕見基因變異的最新進展可能未被完全納入，因此保留部分不確定性。」

後者提供的資訊價值，遠遠超越前者。它不僅讓我們了解信心的來源，更直接指出了模型的知識邊界與潛在風險，讓我們可以針對性地進行查核或補充。這才是真正有意義的「人機協作」。

SaySelf 框架：如何教 AI 學會誠實？

為了實現這個目標，研究團隊設計了一個名為「SaySelf」的訓練框架。它並非單純要求模型模仿人類的說話方式，而是透過一套系統性的方法，讓模型學會準確地校準自身信心。這個框架主要結合了兩種技術：

監督式微調（Supervised Fine-Tuning, SFT）：研究人員先建立一個高品質的資料集，裡面包含了問題、答案，以及由人類專家或更強大的模型撰寫的「黃金標準」反思理由。透過在這個資料集上進行微調，模型初步學會了生成這類解釋的格式與邏輯。
強化學習（Reinforcement Learning, RL）：接著，透過強化學習進一步校準。系統會獎勵那些「誠實」的回答。所謂誠實，指的是模型的信心分數與其反思理由，必須與它在該問題上的實際表現（答對或答錯）高度一致。如果模型過度自信地給出錯誤答案，就會受到懲罰。經過這樣的訓練，模型會逐漸學會抑制無端的自信，更精準地評估自己的能力。

實驗結果顯示，經過 SaySelf 框架訓練的模型，不僅能生成更有幫助的解釋，其信心分數的準確性也顯著提升，大幅減少了過度自信的問題。

超越答案正確性：建立可治理的 AI 系統

對我而言，這項研究最重要的啟示，在於它將 AI 可靠性的討論，從單純的「答案是否正確」，提升到了「系統是否可治理」的層次。

這將 AI 從一個我們只能祈禱它答對的「黑箱神諭」，轉變為一個能坦承自身侷限、邀請我們共同尋找答案的「協作夥伴」。

當一個 AI 能夠清晰地闡述「我不知道，因為我的資料只到 2023 年」，或者「我對此不確定，因為來源 A 與來源 B 的說法互相矛盾」時，它就為我們打開了一扇進行有效治理與干預的窗。我們可以根據它的反思，決定下一步是更新資料庫、引入外部專家，還是交叉驗證特定來源。

在更宏大的多 Agent 系統架構中，這種能力更是不可或缺。我們可以想像一個由多個專門的 AI Agent 組成的團隊，它們在協作時，不僅交換結論，更交換各自的「反思理由」。一個 Agent 可以根據另一個 Agent 的不確定性來源，來決定是否要接手任務，或從自己的知識庫中提供補充資訊。這將構成一個更穩健、更具韌性的集體智慧系統。

最終，建立值得信賴的 AI，關鍵或許不在於追求永不犯錯的「神性」，而在於培養懂得反思、承認未知、並能清晰溝通其侷限性的「理性」。從這個角度看，讓 AI 學會說「我不知道」並解釋原因，可能比讓它答對一萬個問題，是更為重要的一步。

AI 的「我不知道」，比答對更重要：從信心分數到自我反思的信任躍升

江中喬

從「信心分數」到「反思理由」

SaySelf 框架：如何教 AI 學會誠實？

超越答案正確性：建立可治理的 AI 系統

延伸閱讀

Sign up for more like this.