未來,我們不再需要「寫」Prompt?AI 主動提問將成對齊新典範
我們總是假設使用者有責任寫出完美的 Prompt,但如果反過來,由 AI 主動提問來釐清我們的複雜偏好與邊界條件呢?一項開創性研究指出,這種互動模式不僅更有效率,更可能定義下一代 AI 對齊介面的樣貌。
長久以來,我們與大型語言模型(LLM)互動的典範,是把「寫出好提示(Prompt)」的責任完全交給使用者。這個典範可能即將迎來轉變。
我認為,下一代的人機對齊介面,核心將不再是要求使用者一次寫好 Prompt,而是模型會透過主動提問,以對話方式逐步澄清我們的偏好與邊界條件。這不僅是使用者體驗的優化,更是對齊問題的一個更根本、更有效率的解方。
這個觀點的主要依據,來自 2023 年 10 月發表的一篇研究 Eliciting Human Preferences with Language Models。研究者們證實,透過一個由模型主導的對話框架來挖掘使用者偏好,比讓使用者自己從零開始撰寫詳細規格,能更準確地捕捉到那些複雜、模糊甚至使用者自己都未曾意識到的需求。
為什麼我們總是寫不好 Prompt?
「Prompt Engineering」之所以成為一門顯學,甚至被許多人視為關鍵技能,其根本原因在於人類天生就不擅長將腦中複雜、多層次的想法,一次性地轉譯成機器能精準理解的結構化指令。我們的偏好往往是隱性的、充滿情境脈絡,而且常常在看到不想要的結果後,才驚覺自己忘了說明某些前提。
例如,當我們要求 AI「寫一封專業的客戶郵件」時,腦中其實有許多未言明的假設:
- 語氣:是極度正式,還是帶點人情味的半正式?
- 目標:主要目的是告知進度、請求對方行動,還是單純維繫關係?
- 邊界:有哪些敏感資訊絕對不能提?預算、內部時程,或是其他競爭對手的名字?
- 前情提要:AI 需要知道我跟這位客戶的關係深淺、上次的互動結果嗎?
現行的互動模式,等於是要求使用者扮演一位完美的專案經理,在開案時就寫出天衣無縫的需求文件。這不僅對使用者造成巨大的認知負擔,也導致了大量的無效溝通與反覆修改。許多像 OpenAI Cookbook 這樣的教學資源,本質上都是在試圖彌補這個人機溝通的巨大鴻溝。
GATE:讓模型主動引導的對話框架
前述提到的研究,提出了一個名為 GATE(Goal-driven Aligned Task Elicitation)的框架,試圖翻轉這個局面。GATE 的核心精神,是讓 LLM 扮演主動的訪談者,透過一系列有策略的提問,引導使用者說出任務的完整樣貌。
這個過程並非漫無目的的閒聊,而是由模型引導,逐步建立起一份關於任務的「規格說明書」(specification)或「評分標準」(rubric)。模型會從高層次的目標開始,層層下鑽到具體的細節與邊界條件。
例如,模型可能會先問:「這次任務的主要目標是什麼?」在得到答案後,接著問:「為了達成這個目標,你認為最重要的三個考量點是什麼?」、「有沒有什麼風格或內容是應該極力避免的?」
實驗結果非常清楚:由 GATE 框架引導生成的任務規格,在後續讓其他 AI 執行時,其產出品質顯著高於由人類專家直接撰寫的規格。這意味著,與其訓練人類成為提示工程師,不如讓 AI 成為更稱職的需求訪談專家。
這項研究最重要的啟示是:我們應該將「精準定義任務」的責任,從使用者端轉移到模型端。
這與 RLHF 或 Constitutional AI 有何不同?
看到這裡,熟悉 AI 對齊技術的人可能會問:這種挖掘偏好的方法,跟既有的 RLHF 或 Constitutional AI 有什麼不一樣?這是一個很好的問題,它們處理的是不同層次的對齊問題。
簡單來說,它們的差異在於介入的時間點與範疇:
- 從人類偏好中學習(RLHF):主要發生在「事後」。它透過讓人類對模型的不同輸出進行排序(A 比 B 好),來微調模型的行為。它是一種被動的、基於比較的反饋機制,用以塑造模型整體的價值觀。
- Constitutional AI(CAI):主要發生在「事前」。它透過為 AI 設定一套核心原則(例如 Anthropic 的「憲法」),讓 AI 在沒有人類監督的情況下,也能自主判斷並拒絕有害的請求。它關注的是普適性的安全與倫理護欄。
- GATE 這類對話式澄清:主要發生在「事中」。它關注的不是普適的價值觀或安全護欄,而是「當下這個特定任務」的具體需求。它是一種主動的、針對任務的規格澄清機制。
如果把 AI 比喻成一位員工,RLHF 就像是年度績效考核,CAI 像是員工手冊與法律規範,而 GATE 則像是任務開始前的需求同步會議(kick-off meeting)。三者缺一不可,共同構成了讓 AI 與人類協作的基礎。
對產品與 Agent 設計的啟示
這個從「指令-執行」到「對話-澄清」的典範轉移,對未來的 AI 產品設計與 Agent 架構有著深遠的影響。我們將看到的不再只是一個孤單的輸入框,而是一個更具引導性的互動介面。
對於需要執行複雜、多步驟任務的自主代理(Agent)來說,這種能力更是至關重要。一個無法主動澄清目標與限制的 Agent,就像一個只會埋頭苦幹卻從不提問的實習生,很容易在關鍵時刻做出災難性的錯誤決策。正如 Anthropic 在建構高效能 Agent 的文章中所強調的,讓 Agent 理解複雜指令並從反饋中學習,是打造實用工具的核心。
未來,評斷一個 AI 系統是否「聰明」或「對齊」,可能不再只看它回答問題的能力,而更多地是看它「提出好問題」的能力。一個懂得在行動前反覆確認、釐清模糊地帶的 AI,才是一個真正能讓人信任的協作者。
延伸閱讀
- [2310.11589] Eliciting Human Preferences with Language Models
- [2212.08073] Constitutional AI: Harmlessness from AI Feedback
- [1706.03741] Learning from Human Preferences
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。