mk-brain

AI Agent 的信任難題：從罕病診斷看見「可追溯推理」的價值

AI Agent 的能力日益強大，但當它涉足醫療、金融等高風險領域時，光有「聰明」還不夠，更需要「信任」。本文將深入探討一篇針對罕見疾病診斷的多代理系統研究，看它如何透過留下清晰、可供專家審計的推理軌跡，將AI從難以捉摸的「黑箱」轉變為可靠的「數位助理」。了解「可追溯性」如何成為建立人機協作信任，並讓AI真正落地關鍵場景的入場券。

江中喬

27 5月 2026 • 7 min read

當前圍繞 AI Agent 的討論，大多聚焦於其日益增強的自主性與推理能力。然而，在醫療、金融、法律等高風險、高利害關係的場景中，真正的落地瓶頸並非能力，而是信任。一個無法解釋其決策過程、無法留下可供審計軌跡的「黑箱」，即使準確率再高，也難以被領域專家採納。最近一篇關於利用多代理系統診斷罕見疾病的論文，便清楚揭示了這個觀點：能進入實戰場域的 Agent，關鍵不在於更聰明，而在於其推理過程是完全可追溯、可驗證的。

為什麼罕見疾病診斷是個棘手挑戰？

罕見疾病的診斷是一項極其艱鉅的任務。根據美國國立衛生研究院（NIH）的資料，全球已知罕見疾病超過 7,000 種，但每種疾病的病例都很少，臨床表現又常常與常見疾病重疊，導致患者平均需要耗費數年、拜訪多位專家才能獲得正確診斷。這個過程不僅消耗大量醫療資源，更對患者及其家庭造成巨大的身心負擔。

診斷過程中，臨床醫生需要整合極度異質的資訊，包括：

臨床表型（Phenotypes）：病患的症狀描述，通常是非結構化的自然語言。
基因定序資料（Genomic Data）：如全外顯子組定序（WES）的 VCF 檔案。
醫學影像：X 光、MRI 等。
實驗室報告：血液、生化檢驗數值。

傳統的 AI 模型，特別是深度學習模型，雖然能在特定任務上展現高準確率，但其「黑箱」特性使其在這種需要嚴謹論證的臨床決策中顯得格格不入。醫生無法得知模型是基於哪些證據、透過何種邏輯得出結論，自然也無法放心將其診斷建議納入治療計畫。這正是「可解釋性 AI」（Explainable AI, XAI）試圖解決的核心問題，而在 Agentic 架構下，我們看到了更具體的實踐路徑。

DeepRare 如何建立可被審計的診斷路徑？

這篇論文提出的多代理系統「DeepRare」，其設計核心並非創造一個無所不知的「超級醫生」，而是建立一個透明、嚴謹的「數位診斷助理團隊」。這個團隊由多個職能分明的 Agent 組成，協同完成複雜的診斷任務。

其架構大致可分為一個「策劃者 Agent」（Orchestrator Agent）與多個「工具使用者 Agent」（Tool-using Agents）。策劃者負責拆解複雜的診斷問題、規劃執行步驟，並將子任務分配給專門的工具使用者。這些工具使用者則被授權操作超過 40 種專業的生物醫學資料庫與分析工具，例如查詢基因與疾病關聯性的 ClinVar、分析基因變異影響的 SIFT 等。

整個系統的關鍵，在於它產出的不僅是一個最終的診斷結果，而是一條完整、詳細、可供人類專家審查的「推理鏈」（reasoning chain）。這條鏈記錄了：

任務拆解：最初的診斷請求是如何被分解成一系列具體分析步驟的。
工具選擇：針對每一步，系統選擇了哪個工具來執行。
工具輸入與輸出：呼叫工具時使用了什麼參數，以及工具返回了什麼原始結果。
中期結論：系統如何解讀工具的輸出，並形成下一步行動的依據。

在高風險應用中，一個可解釋、可追溯的「次優」模型，遠比一個無法解釋的「最佳」黑箱模型更有價值。因為信任與責任的歸屬，是無法單純用準確率來衡量的。

這份詳盡的執行日誌，就像一位醫學研究生的實驗記錄本，讓資深的主治醫師可以一步步回溯其思考路徑，判斷其每一步操作是否合理、結論是否可靠。這種透明度，正是建立臨床信任的基石。

不只追求準確率：為什麼專家同意率更關鍵？

在評估 DeepRare 的成效時，研究團隊不只看傳統的機器學習指標（如 Top-K 準確率），更引入了「臨床專家評估」。在多模態（結合基因與臨床表型）的測試中，DeepRare 的表現顯著優於現有的黃金標準工具 Exomiser。更重要的是，當系統生成的推理鏈與相關證據提交給人類罕病專家評審時，其診斷結論獲得了高達 95.4% 的專家同意率。

這個數字的意義遠大於單純的準確率。它意味著，當 AI 的思考過程被攤在陽光下時，專家們不僅能夠理解，而且絕大多數時候都認同其邏輯。這證明了「可追溯性」是從「模型能用」到「專家敢用」的關鍵橋樑。AI 在此不再是一個給出答案的先知，而是一個能並肩作戰、分擔繁重資料分析工作的可靠夥伴。

除了醫療，可追溯性對哪些高風險 Agent 應用至關重要？

DeepRare 的設計哲學，其影響力遠不止於醫療領域。我們可以預見，在任何一個決策錯誤會導致嚴重後果的行業，這種「可追溯、可審計」的 Agent 架構都將成為標準配備。

想像在金融交易領域，一個 Agent 執行了一筆鉅額交易。監管機構與公司風控部門需要的，不僅是交易結果，更是一份詳細的報告，說明 Agent 是基於哪些市場信號、經濟數據、風險模型，並透過哪些計算步驟，最終做出這個交易決策。在法律場景中，一個輔助律師進行案件研究的 Agent，必須能清楚列出它引用的所有判例、法條來源，而不是給出一個模糊的「法律意見」。

這種對過程透明度的要求，也與 NIST AI 風險管理框架等治理標準的精神不謀而合，強調 AI 系統的有效性、可靠性與透明度。未來，真正能被整合進關鍵工作流程的 AI Agent，不會是那些宣稱自己最聰明的，而是那些最誠實、最願意「展示其工作過程」的系統。這不僅是技術問題，更是建立人機協作信任的核心。

延伸閱讀

我是江中喬，專注於 AI Agent Architecture、Memory Governance 與 Cognitive Diversity，持續研究如何打造能夠長期協作、可信任且可治理的 AI 系統。

為什麼罕見疾病診斷是個棘手挑戰？

DeepRare 如何建立可被審計的診斷路徑？

不只追求準確率：為什麼專家同意率更關鍵？

除了醫療，可追溯性對哪些高風險 Agent 應用至關重要？

延伸閱讀

Sign up for more like this.