提問的品質比模型的聰明度更重要

LLM 的瓶頸不在推理,在於對人類提問的理解;重述問題能顯式地處理歧義,改善模型表現。

提問的品質比模型的聰明度更重要

問題本身就是瓶頸

Quanquan Gu 的研究指向一個看似簡單卻常被忽視的事實:LLM 的表現天花板往往不在推理能力,而在對人類提問的理解。

這不是新發現,但用實驗量化它有意義。他們提出的 Rephrase and Respond(RaR)方法很直白:讓模型先把人類的問題重述一遍,再回答。就這樣,GPT-4 的表現就能改善。

為什麼有效?重述的過程迫使模型顯式地處理歧義。人類的提問充滿隱含假設、語境依賴、甚至自相矛盾。模型在沒有澄清的情況下直接回答,其實是在猜測人類想要什麼。

這改變了什麼

如果提問品質是真正的限制因素,那麼幾個推論就成立了:

  • 更好的模型不等於更好的答案。同一個爛問題,用 GPT-4 和用開源模型結果可能差不多。
  • 提示工程的價值被重新定義。不是靠精妙的 prompt 指令讓模型變聰明,而是把模糊的需求轉化成清晰的問題。

實際應用的角度

我在做廣告 PoC 時遇到過類似的問題。業務方提出的需求往往不是他們真正想要的。「幫我優化轉化率」可能意味著降低獲客成本,也可能意味著提高客單價,也可能是兩者都要但優先級不清。

直接把需求丟給 LLM 生成方案,出來的東西通常很 generic。但如果先讓系統或人工澄清問題——「你說的轉化率,是指哪個漏斗層級?目前的瓶頸在哪?」——再讓模型回答,質量就明顯不同。

RaR 其實就是把這個澄清過程自動化。模型自己問自己問題。

但這不是銀彈

重述能幫助解決結構化的歧義,但解決不了根本不知道自己要什麼的人。如果提問者本身思路就混亂,再好的重述也救不了。

而且,RaR 增加了計算步驟。對於已經很清晰的問題,這個開銷就是浪費。實際應用時,可能需要某種啟發式判斷:什麼時候值得多花一步重述。

這也解釋了為什麼在實務上,好的產品經理和工程師往往比更強大的工具更值錢。他們的核心能力就是把模糊的需求轉化成清晰的問題。現在 LLM 可以幫著做這件事,但前提是有人知道該怎麼設計這個流程。


我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。

原始來源:https://x.com/QuanquanGu/status/1722364144379396513?s=20