AI Agent 的信任難題:從罕病診斷看見「可追溯推理」的價值
AI Agent 的能力日益強大,但當它涉足醫療、金融等高風險領域時,光有「聰明」還不夠,更需要「信任」。本文將深入探討一篇針對罕見疾病診斷的多代理系統研究,看它如何透過留下清晰、可供專家審計的推理軌跡,將AI從難以捉摸的「黑箱」轉變為可靠的「數位助理」。了解「可追溯性」如何成為建立人機協作信任,並讓AI真正落地關鍵場景的入場券。
當前圍繞 AI Agent 的討論,大多聚焦於其日益增強的自主性與推理能力。然而,在醫療、金融、法律等高風險、高利害關係的場景中,真正的落地瓶頸並非能力,而是信任。一個無法解釋其決策過程、無法留下可供審計軌跡的「黑箱」,即使準確率再高,也難以被領域專家採納。最近一篇關於利用多代理系統診斷罕見疾病的論文,便清楚揭示了這個觀點:能進入實戰場域的 Agent,關鍵不在於更聰明,而在於其推理過程是完全可追溯、可驗證的。
為什麼罕見疾病診斷是個棘手挑戰?
罕見疾病的診斷是一項極其艱鉅的任務。根據美國國立衛生研究院(NIH)的資料,全球已知罕見疾病超過 7,000 種,但每種疾病的病例都很少,臨床表現又常常與常見疾病重疊,導致患者平均需要耗費數年、拜訪多位專家才能獲得正確診斷。這個過程不僅消耗大量醫療資源,更對患者及其家庭造成巨大的身心負擔。
診斷過程中,臨床醫生需要整合極度異質的資訊,包括:
- 臨床表型(Phenotypes):病患的症狀描述,通常是非結構化的自然語言。
- 基因定序資料(Genomic Data):如全外顯子組定序(WES)的 VCF 檔案。
- 醫學影像:X 光、MRI 等。
- 實驗室報告:血液、生化檢驗數值。
傳統的 AI 模型,特別是深度學習模型,雖然能在特定任務上展現高準確率,但其「黑箱」特性使其在這種需要嚴謹論證的臨床決策中顯得格格不入。醫生無法得知模型是基於哪些證據、透過何種邏輯得出結論,自然也無法放心將其診斷建議納入治療計畫。這正是「可解釋性 AI」(Explainable AI, XAI)試圖解決的核心問題,而在 Agentic 架構下,我們看到了更具體的實踐路徑。
DeepRare 如何建立可被審計的診斷路徑?
這篇論文提出的多代理系統「DeepRare」,其設計核心並非創造一個無所不知的「超級醫生」,而是建立一個透明、嚴謹的「數位診斷助理團隊」。這個團隊由多個職能分明的 Agent 組成,協同完成複雜的診斷任務。
其架構大致可分為一個「策劃者 Agent」(Orchestrator Agent)與多個「工具使用者 Agent」(Tool-using Agents)。策劃者負責拆解複雜的診斷問題、規劃執行步驟,並將子任務分配給專門的工具使用者。這些工具使用者則被授權操作超過 40 種專業的生物醫學資料庫與分析工具,例如查詢基因與疾病關聯性的 ClinVar、分析基因變異影響的 SIFT 等。
整個系統的關鍵,在於它產出的不僅是一個最終的診斷結果,而是一條完整、詳細、可供人類專家審查的「推理鏈」(reasoning chain)。這條鏈記錄了:
- 任務拆解:最初的診斷請求是如何被分解成一系列具體分析步驟的。
- 工具選擇:針對每一步,系統選擇了哪個工具來執行。
- 工具輸入與輸出:呼叫工具時使用了什麼參數,以及工具返回了什麼原始結果。
- 中期結論:系統如何解讀工具的輸出,並形成下一步行動的依據。
在高風險應用中,一個可解釋、可追溯的「次優」模型,遠比一個無法解釋的「最佳」黑箱模型更有價值。因為信任與責任的歸屬,是無法單純用準確率來衡量的。
這份詳盡的執行日誌,就像一位醫學研究生的實驗記錄本,讓資深的主治醫師可以一步步回溯其思考路徑,判斷其每一步操作是否合理、結論是否可靠。這種透明度,正是建立臨床信任的基石。
不只追求準確率:為什麼專家同意率更關鍵?
在評估 DeepRare 的成效時,研究團隊不只看傳統的機器學習指標(如 Top-K 準確率),更引入了「臨床專家評估」。在多模態(結合基因與臨床表型)的測試中,DeepRare 的表現顯著優於現有的黃金標準工具 Exomiser。更重要的是,當系統生成的推理鏈與相關證據提交給人類罕病專家評審時,其診斷結論獲得了高達 95.4% 的專家同意率。
這個數字的意義遠大於單純的準確率。它意味著,當 AI 的思考過程被攤在陽光下時,專家們不僅能夠理解,而且絕大多數時候都認同其邏輯。這證明了「可追溯性」是從「模型能用」到「專家敢用」的關鍵橋樑。AI 在此不再是一個給出答案的先知,而是一個能並肩作戰、分擔繁重資料分析工作的可靠夥伴。
除了醫療,可追溯性對哪些高風險 Agent 應用至關重要?
DeepRare 的設計哲學,其影響力遠不止於醫療領域。我們可以預見,在任何一個決策錯誤會導致嚴重後果的行業,這種「可追溯、可審計」的 Agent 架構都將成為標準配備。
想像在金融交易領域,一個 Agent 執行了一筆鉅額交易。監管機構與公司風控部門需要的,不僅是交易結果,更是一份詳細的報告,說明 Agent 是基於哪些市場信號、經濟數據、風險模型,並透過哪些計算步驟,最終做出這個交易決策。在法律場景中,一個輔助律師進行案件研究的 Agent,必須能清楚列出它引用的所有判例、法條來源,而不是給出一個模糊的「法律意見」。
這種對過程透明度的要求,也與 NIST AI 風險管理框架等治理標準的精神不謀而合,強調 AI 系統的有效性、可靠性與透明度。未來,真正能被整合進關鍵工作流程的 AI Agent,不會是那些宣稱自己最聰明的,而是那些最誠實、最願意「展示其工作過程」的系統。這不僅是技術問題,更是建立人機協作信任的核心。
延伸閱讀
- An Agentic System for Rare Disease Diagnosis with Traceable Reasoning (arXiv)
- NIH: Rare Disease Awareness
- DARPA: Explainable Artificial Intelligence (XAI)
- NIST: AI Risk Management Framework
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。