AI 模型只是放大器,資料基礎建設才是天花板

企業過度關注 AI 模型選擇,卻忽視資料品質和基礎建設——這是決策順序反了。

AI 模型只是放大器,資料基礎建設才是天花板

問題不在模型選擇

我最近看到一個現象:很多團隊在 AI 投入上的決策邏輯是反過來的。

他們先決定用什麼模型——GPT-4、Claude、開源方案——然後才問「我們的資料夠嗎?」。這個順序就有問題。更常見的情況是,他們根本沒問第二個問題。

結果是什麼?花了錢買了一個強大的模型,但輸入進去的資料品質很差。就像買了一台高級相機,卻拍的全是模糊的照片。模型再聰明也救不了。

資料基礎建設的真實成本

我說的「資料基礎建設」不是指 data warehouse 或 data lake 這些基礎設施。我指的是:

  • 資料的定義和標準化——同一個欄位在不同系統裡的含義是否一致
  • 資料的清潔度——有多少比例的資料是可用的
  • 資料的可追溯性——你能說清楚這筆資料從哪來、經過了什麼轉換嗎
  • 資料的更新頻率和延遲——對你的業務決策而言,這個延遲能接受嗎

這些東西沒做好,模型輸出的品質天花板就很低。而且你會花很多時間在「為什麼結果不對」這個問題上。

為什麼會反過來

我的觀察是:模型選擇看起來像是一個技術決策,很容易被量化、被比較、被討論。「用 GPT-4 還是 Claude」這種問題有明確的對標對象。

但資料基礎建設是組織問題。它涉及流程、責任歸屬、跨部門協作。這些東西沒有清晰的技術指標,也不能用「換一個更好的工具」快速解決。所以很容易被忽視。

結果就是:決策者看到一個新的大模型發布,覺得「我們也應該試試」,然後砸錢。但三個月後發現效果不如預期,結論是「這個模型不適合我們」,然後再換一個。

實際上問題從來不在模型。

該怎麼做

如果你現在要啟動一個 AI 項目,我建議的順序是:

  1. 先盤點你有什麼資料,這些資料的品質如何
  2. 定義清楚你想解決的具體問題,需要什麼樣的資料輸入
  3. 如果資料不夠或不夠乾淨,先投入在清潔和標準化上
  4. 然後才選模型

這樣做會比較慢。前三步可能要花幾週或幾個月。但一旦資料基礎建設好了,後面換模型、迭代效果都會很快。

反過來的話,你會陷入一個無限迴圈:不斷換模型,不斷調參數,但根本問題沒解決。


我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。

原始來源:https://www.threads.com/@patentaiwan/post/DV8E-D7D652