幾何證明告訴我們，合成數據的上限可能比人類示範更高

用神經符號架構搭配自動生成的合成數據，幾何證明不再需要人類示範——這告訴我們，很多「缺數據」的問題其實是架構設計的問題。

11 4月 2026 • 4 min read

問題不在數據量，在架構設計

奧數幾何證明一直是 AI 的硬骨頭。不是因為計算難，而是因為缺少大規模人類標註的證明過程。傳統方法需要人工示範才能學習，但優質範例本身就稀缺——真正會做奧數的人本來就少。

Nature 這篇論文的切入點不同：與其等人類標註，不如用神經符號架構搭配合成數據。用機器自己生成的訓練信號，反而可能突破人類示範的天花板。

核心是分工：神經網路負責模式識別和直覺，符號系統負責邏輯驗證和推理路徑。

對幾何證明來說，這意味著：

關鍵在於合成數據的生成策略。不是隨機造問題，而是用符號系統本身生成「已驗證正確」的幾何配置和證明路徑。這樣的訓練數據品質反而比人工標註更一致，沒有人為的錯誤或不完整推導。

傳統監督學習的瓶頸是標註成本。人類做一道奧數幾何題需要 10 分鐘到一小時，整個思考過程還得詳細記錄下來。一千道題目就是幾個人月的工作。

合成數據打破了這個限制。計算機可以在幾秒內生成一個幾何配置，驗證它的性質，構造一條完整的證明路徑。規模可以是人類的千倍。

但合成數據多不等於品質好。差別在於架構的設計——你是在用神經網路近似一個本質上可符號化的問題，還是在用符號系統作為神經網路的驗證層。前者容易過擬合；後者才能真正泛化。

這套方法對幾何證明特別有效，因為幾何有明確的公理系統。但不是所有推理問題都這樣。

如果問題沒有清晰的符號化基礎——比如自然語言推理、常識推理——你就沒法自動生成「已驗證正確」的合成示例。這時候合成數據的優勢就消失了。

另一個限制是泛化邊界。模型在合成數據上訓練得再好，面對真實問題時的表現取決於合成分佈和真實分佈的對齊程度。幾何證明這類問題分佈相對穩定，所以泛化相對容易。但對於開放域問題，這個差距可能很大。

這篇論文的啟發不在「用合成數據替代人類示範」這個結論本身，而在於它問了一個更有用的問題：我們是否在用錯了架構來定義問題？

很多時候，我們說「缺少訓練數據」，實際上是說「用當前的架構，需要大量人類標註」。但如果換個架構——讓符號驗證和神經識別各司其職——數據問題可能不再是瓶頸。

這對產品層面也有啟示。當你遇到「數據太少」的困境時，先問：是真的沒有數據，還是數據可以自動生成，但現在的系統設計沒有利用這一點？

我是江中喬，一位具有 TPM 與產品管理背景的 AI 系統建構者，目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。