提問的品質比模型的聰明度更重要

LLM 的瓶頸不在推理，在於對人類提問的理解；重述問題能顯式地處理歧義，改善模型表現。

11 4月 2026 • 3 min read

問題本身就是瓶頸

Quanquan Gu 的研究指向一個看似簡單卻常被忽視的事實：LLM 的表現天花板往往不在推理能力，而在對人類提問的理解。

這不是新發現，但用實驗量化它有意義。他們提出的 Rephrase and Respond（RaR）方法很直白：讓模型先把人類的問題重述一遍，再回答。就這樣，GPT-4 的表現就能改善。

為什麼有效？重述的過程迫使模型顯式地處理歧義。人類的提問充滿隱含假設、語境依賴、甚至自相矛盾。模型在沒有澄清的情況下直接回答，其實是在猜測人類想要什麼。

如果提問品質是真正的限制因素，那麼幾個推論就成立了：

我在做廣告 PoC 時遇到過類似的問題。業務方提出的需求往往不是他們真正想要的。「幫我優化轉化率」可能意味著降低獲客成本，也可能意味著提高客單價，也可能是兩者都要但優先級不清。

直接把需求丟給 LLM 生成方案，出來的東西通常很 generic。但如果先讓系統或人工澄清問題——「你說的轉化率，是指哪個漏斗層級？目前的瓶頸在哪？」——再讓模型回答，質量就明顯不同。

RaR 其實就是把這個澄清過程自動化。模型自己問自己問題。

重述能幫助解決結構化的歧義，但解決不了根本不知道自己要什麼的人。如果提問者本身思路就混亂，再好的重述也救不了。

而且，RaR 增加了計算步驟。對於已經很清晰的問題，這個開銷就是浪費。實際應用時，可能需要某種啟發式判斷：什麼時候值得多花一步重述。

這也解釋了為什麼在實務上，好的產品經理和工程師往往比更強大的工具更值錢。他們的核心能力就是把模糊的需求轉化成清晰的問題。現在 LLM 可以幫著做這件事，但前提是有人知道該怎麼設計這個流程。

我是江中喬，一位具有 TPM 與產品管理背景的 AI 系統建構者，目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。