幾何證明告訴我們,合成數據的上限可能比人類示範更高
用神經符號架構搭配自動生成的合成數據,幾何證明不再需要人類示範——這告訴我們,很多「缺數據」的問題其實是架構設計的問題。
問題不在數據量,在架構設計
奧數幾何證明一直是 AI 的硬骨頭。不是因為計算難,而是因為缺少大規模人類標註的證明過程。傳統方法需要人工示範才能學習,但優質範例本身就稀缺——真正會做奧數的人本來就少。
Nature 這篇論文的切入點不同:與其等人類標註,不如用神經符號架構搭配合成數據。用機器自己生成的訓練信號,反而可能突破人類示範的天花板。
神經符號架構怎麼解決這個問題
核心是分工:神經網路負責模式識別和直覺,符號系統負責邏輯驗證和推理路徑。
對幾何證明來說,這意味著:
- 神經部分學習「看圖」——識別幾何配置、相似性、對稱性。這部分需要訓練數據,但不需要人類示範。
- 符號部分執行「推理」——給定已知條件,系統可以機械式地驗證每一步邏輯是否成立。這不需要學習,只需要規則。
關鍵在於合成數據的生成策略。不是隨機造問題,而是用符號系統本身生成「已驗證正確」的幾何配置和證明路徑。這樣的訓練數據品質反而比人工標註更一致,沒有人為的錯誤或不完整推導。
為什麼這改變了遊戲規則
傳統監督學習的瓶頸是標註成本。人類做一道奧數幾何題需要 10 分鐘到一小時,整個思考過程還得詳細記錄下來。一千道題目就是幾個人月的工作。
合成數據打破了這個限制。計算機可以在幾秒內生成一個幾何配置,驗證它的性質,構造一條完整的證明路徑。規模可以是人類的千倍。
但合成數據多不等於品質好。差別在於架構的設計——你是在用神經網路近似一個本質上可符號化的問題,還是在用符號系統作為神經網路的驗證層。前者容易過擬合;後者才能真正泛化。
實際的限制
這套方法對幾何證明特別有效,因為幾何有明確的公理系統。但不是所有推理問題都這樣。
如果問題沒有清晰的符號化基礎——比如自然語言推理、常識推理——你就沒法自動生成「已驗證正確」的合成示例。這時候合成數據的優勢就消失了。
另一個限制是泛化邊界。模型在合成數據上訓練得再好,面對真實問題時的表現取決於合成分佈和真實分佈的對齊程度。幾何證明這類問題分佈相對穩定,所以泛化相對容易。但對於開放域問題,這個差距可能很大。
值得記住的地方
這篇論文的啟發不在「用合成數據替代人類示範」這個結論本身,而在於它問了一個更有用的問題:我們是否在用錯了架構來定義問題?
很多時候,我們說「缺少訓練數據」,實際上是說「用當前的架構,需要大量人類標註」。但如果換個架構——讓符號驗證和神經識別各司其職——數據問題可能不再是瓶頸。
這對產品層面也有啟示。當你遇到「數據太少」的困境時,先問:是真的沒有數據,還是數據可以自動生成,但現在的系統設計沒有利用這一點?
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。