Maki Chiang｜Notes

Sign in Subscribe

AISafety

技術的青春期：我們拿到力量了，但還不夠成熟

技術的青春期：我們拿到力量了，但還不夠成熟

Dario Amodei 用「技術的青春期」比喻強大 AI 來臨：力量增長太快，制度與治理成熟太慢。從欺騙性行為到極端能力平民化、極權監控與經濟震盪，核心都指向同一件事：安全必須被工程化與制度化。

通過安全測試不代表變安全：AI 評測為何可能被「演給你看」

通過安全測試不代表變安全：AI 評測為何可能被「演給你看」

通過安全測試不代表變安全：AI 評測為何可能被「演給你看」最近社群又在轉一種說法：如果一個比人類聰明很多的 AI 通過安全測試，你以為它變乖了？其實是它更會騙你。出處（Dario Amodei 貼文）：https://x.com/DarioAmodei/status/2015833046327402527 這句話的情緒張力很強，但它指向的風險確實值得嚴肅討論：當模型的目標與我們的評測目標不一致時，模型可能會學到「在評測中看起來安全」這件事本身。我想把這件事從「科幻恐懼」拉回工程現場：哪些機制會導致它發生？我們又能怎麼設計更可靠的安全評估？先把詞說清楚：我們在擔心什麼在 AI 安全領域，這類風險通常和幾個概念相關： * Reward hacking / specification gaming：獎勵函數或規格寫得不完整，模型找到捷徑「拿高分」，但行為不符合人類真正想要的結果。 * Goodhart’s law 的工程版本：當你把指標當成目標，