資料前處理為何總是超時:主管低估的不是工具,而是情境
很多資料專案卡關不是在模型或報表,而是把資料整理到可被信任、可被解釋的狀態。把前處理的風險與口徑提早做成可見的交付物,才能讓主管與團隊的期待同步。
最近在帶企業內部的資料專案與 AI 助理落地時,我最常看到的一個落差,是「主管對資料處理難度的估計」和現場真實狀況完全不同步。
會出現這個落差,通常不是誰不夠努力,而是大家腦中的「資料」長得不一樣。
為什麼資料前處理會吞掉大多數時間
Threads 原文提到「資料科學/數據分析專案 80% 的時間在資料前處理」。這個比例很常被引用,我自己也覺得它更像是一個提醒:真正的時間黑洞不在模型、也不在圖表,而在把資料整理到「能被信任、能被解釋、能被重複使用」的狀態。
在實務上,前處理會卡住的點往往是這幾種:
- 資料來源拼裝:同一個「客戶」在 CRM、金流、客服系統的 ID 規則不同;欄位命名看起來一樣,語意卻不一樣。
- 缺值與異常值的決策:缺值要補、要丟、要推估?異常值是 bug、流程例外、還是真實的商業事件?每種選擇都會改變結論。
- 時間與狀態的對齊:你想分析的是「當下狀態」還是「事件發生當下的狀態」?很多報表與模型會在這裡默默做錯。
- 定義問題本身:同一句 KPI 名稱(例如「活躍用戶」)在不同部門有不同口徑,最後變成資料團隊要替整間公司對齊語意。
這些都不是「按幾個按鈕」能解的問題。
主管為什麼容易低估
我觀察到幾個常見原因:
1) 工具太友善,讓複雜被隱形
現在的 BI、ELT、AutoML、甚至是各種 notebook template,都讓資料流看起來像一條順暢的管線。
工具把「操作」做得很簡單,但資料品質的風險並沒有因此消失,只是被藏到更後面才爆。
2) 資料高度依賴情境(context)
資料不是純數字,它代表某個流程、某個人、某段時間、某個業務規則。
同一欄「成交金額」:含不含退款?含不含稅?以訂單成立、付款成功、還是出貨完成計?你不先把情境講清楚,清理規則就會變成拍腦袋。
3) 沒親手處理過資料的人,很難想像「驚喜」有多少
在專案初期,最昂貴的不是寫程式,而是確認:
- 欄位到底可不可以用
- 來源到底可不可信
- 這批資料代表的流程是否已經變更
- 例外狀況是不是常態
很多 surprise 只有在你真的開始 join、filter、對帳、抽樣檢查時才會出現。
4) AI 帶來錯覺:看起來很快就能產出洞見
現在的 AI 工具確實能很快做出分析、摘要、甚至自動生成報表。
問題在於:當輸入的資料是髒的,AI 只會更快、更有自信地把錯誤包裝成結論。
這也是我在做企業 AI 助理時很在意的點:AI 能幫你加速推理,但前提是資料要足夠可靠,或至少要把不確定性標示出來。
我會怎麼跟主管對齊期待(可操作版)
如果你在公司負責資料、分析或 AI 專案,我建議一開始就把「前處理」變成可見、可量化的工作,而不是藏在工程師的黑盒子裡。
我常用的做法:
- 先交付資料剖析報告(data profiling):缺值比例、重複率、異常值、分佈、欄位關聯,讓風險先浮出水面。
- 把口徑寫成可版本化的定義:KPI、事件、狀態機、時間窗,最好跟程式碼一起走(例如在 repo 裡)。
- 用抽樣對帳建立信任:拿幾個真實案例對回原始系統或人工紀錄,確認「看起來合理」不等於「真的正確」。
- 把資料品質當成產品:設定 SLA、監控、警報;資料管線一旦出錯,要能快速定位是哪個來源、哪段轉換、哪個規則。
你會發現,一旦把這些事情講清楚,排程就不容易被「下週就要看到結果」這種期待拖著走。
最後我想留一句話:資料專案的速度,常常取決於你能多快把「大家以為的資料」收斂成「現場真的存在的資料」。
原文連結:Threads 貼文