AI 競爭的下半場:從模型能力到工程化落地,企業為何更看重「執行堆疊」的穩定性?
當 AI 模型能力逐漸趨同,真正的競爭壁壘正轉向工程化落地能力。企業未來比拼的,不只是模型能做什麼,而是整套執行堆疊能否長期、安全、可控地運作。
大型語言模型的軍備競賽已進入下半場,焦點不再只是模型能力的突破,而是工程化落地的穩定性與安全性。近期 OpenAI 與 Anthropic 的佈局,清晰地揭示了這個轉變:真正的差距將來自於誰能率先將安全、權限、監控與營運流程,整合成穩定可靠的基礎設施。當導入門檻從演算法轉向執行堆疊(execution stack),企業評估 AI 的標準也將從「能不能做」,根本性地轉變為「能不能長期安全地做」。這不只是技術的演進,更是 AI 從實驗品走向生產力工具的必然路徑。
當模型性能逐漸商品化,戰場轉向何方?
過去兩年,我們見證了大型語言模型(LLM)能力的爆炸性成長,從 GPT-3 到 GPT-4o,再到 Claude 3.5 Sonnet,模型在各項基準測試上的差距正逐漸縮小。當「模型夠不夠聰明」不再是唯一的問題時,真正的挑戰便浮現了:如何將這些強大的能力,安全且規模化地整合進企業既有的工作流程?
OpenAI 在 2024 年 6 月 11 日收購安全雲端開發環境供應商 Ona,便是一個極具指標性的訊號。Ona 的技術核心,是提供一個受控管、可追蹤、具備企業級安全性的遠端執行環境。這意味著,未來類似 Codex 或更進階的 AI Agent,將不再只是一個在你本機 VS Code 裡運行的外掛,而是一個能在企業統一管理的雲端環境中,持續執行、存取資源、並留下完整稽核紀錄的「員工」。這解決了一個根本問題:企業無法承擔讓一個不受控的 AI,在開發者的個人電腦上任意存取敏感的程式碼庫或生產環境權限。
問題的核心已經從「你的 AI 能否編寫程式碼?」轉變為「我能否信任你的 AI,在沒有嚴格監管下修改我的生產環境程式碼?」
這個轉變,代表 AI 競爭的重心正從模型層(Model Layer)下沉到執行層(Execution Layer)。一個強大的模型如果沒有穩定、安全的執行環境支撐,對企業而言就如同擁有一位才華洋溢但無法管理的員工,潛在的風險遠大於其能帶來的價值。
為何「人為介入」是 AI Agent 進入企業的必要機制?
在同一天,Anthropic 也為旗下最新的 Claude 3.5 Sonnet 模型推出了 Tool Use 功能,允許模型串接外部 API 與工具。然而,其中最值得關注的,是他們特別設計的「人為審批」(Human Approval)機制。當 AI Agent 準備執行一個高風險操作(例如:刪除資料庫、發送郵件給客戶、調用付費 API)時,系統可以強制暫停,並要求一位真人使用者進行審核與批准。
這個看似簡單的功能,卻是 AI Agent 能否被企業信任的關鍵。在學術研究中,關於自主 Agent 的潛在風險早已被廣泛討論。一個沒有「煞車」的系統,無論其意圖多麼良善,都可能因對指令的誤解或環境的意外變化,造成無法挽回的後果。Anthropic 的作法,本質上是在系統中內建了一個「人機協作」的查核點,這與許多負責任 AI 開發框架所提倡的 Human-in-the-loop (HITL) 理念不謀而合。
對於急於導入 AI 的企業來說,這提供了一條務實的路徑。他們可以在初期將所有關鍵決策點都設定為需要人為審批,待系統運行一段時間,累積足夠的信任與數據後,再逐步將低風險、高重複性的任務自動化。這種漸進式的信任建立過程,遠比一次性地將所有控制權交給 AI 來得實際且安全。
一個成熟的 AI 執行堆疊,應該包含哪些要素?
當我們談論 AI 競爭進入「工程化落地」階段時,我們談論的其實是建構一個強健的「AI 執行堆疊」。這個堆疊不僅僅是部署一個模型那麼簡單,它更像是一套企業級的 AI 營運系統(可類比為 LLMOps 或 AgentOps),至少需要包含以下幾個關鍵組成部分:
- 身份驗證與權限管理 (IAM):精細地控制哪個 Agent、在什麼情境下,可以存取哪些資料、呼叫哪些工具。這需要與企業現有的如 Active Directory 或 Okta 等身份驗證系統深度整合。
- 監控與可觀測性 (Monitoring & Observability):對 Agent 的行為進行即時監控,包括其決策鏈、API 呼叫次數、資源消耗與執行成本。當出現異常行為時,能即時告警。
- 稽核日誌與合規性 (Auditing & Compliance):所有操作都必須留下不可竄改的紀錄,以供事後追蹤與稽核,這對於需要遵循 SOC 2 或 GDPR 等法規的企業至關重要。
- 版本控制與安全部署:對 Agent 的提示(Prompt)、工具集(Tools)與核心邏輯進行版本控制,並建立一套如藍綠部署(Blue-Green Deployment)或金絲雀發布(Canary Release)的流程,確保系統更新的穩定性。
- 成本管理與資源隔離:為每個 Agent 或任務設定預算上限,避免因無限循環或錯誤的 API 呼叫導致成本失控。同時,在多租戶環境下確保不同任務間的資源隔離。
過去,這些看似「無聊」的基礎設施工作,遠不如發表一個性能卓越的新模型來得引人注目。但如今,它們正成為決定 AI 能否在企業中真正創造價值的決勝點。一個無法被有效管理、監控和保護的 AI 系統,最終只會停留在概念驗證(PoC)階段,無法成為企業賴以維生的核心生產力。
總結來說,AI 產業的發展已經越過了單純追求模型智能的奇點。下一階段的競爭,將圍繞著如何打造一個穩定、安全、可控的執行環境展開。對於企業決策者而言,評估 AI 解決方案的重點,也應該從模型的性能指標,轉向其背後基礎設施的成熟度。畢竟,一個能穩定運行、不出差錯的 80 分系統,遠比一個時常帶來意外「驚喜」的 99 分天才來得更有價值。
延伸閱讀
- OpenAI acquires Ona
- Introducing Claude 3.5 Sonnet
- An introduction to LLMOps: operationalizing and managing LLMs
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。