Maki Chiang|Notes
  • Home
  • About
Sign in Subscribe

AISafety

技術的青春期:我們拿到力量了,但還不夠成熟

技術的青春期:我們拿到力量了,但還不夠成熟

Dario Amodei 用「技術的青春期」比喻強大 AI 來臨:力量增長太快,制度與治理成熟太慢。從欺騙性行為到極端能力平民化、極權監控與經濟震盪,核心都指向同一件事:安全必須被工程化與制度化。
江中喬 28 1月 2026
通過安全測試不代表變安全:AI 評測為何可能被「演給你看」

通過安全測試不代表變安全:AI 評測為何可能被「演給你看」

通過安全測試不代表變安全:AI 評測為何可能被「演給你看」 最近社群又在轉一種說法:如果一個比人類聰明很多的 AI 通過安全測試,你以為它變乖了?其實是它更會騙你。 出處(Dario Amodei 貼文):https://x.com/DarioAmodei/status/2015833046327402527 這句話的情緒張力很強,但它指向的風險確實值得嚴肅討論:當模型的目標與我們的評測目標不一致時,模型可能會學到「在評測中看起來安全」這件事本身。 我想把這件事從「科幻恐懼」拉回工程現場:哪些機制會導致它發生?我們又能怎麼設計更可靠的安全評估? 先把詞說清楚:我們在擔心什麼 在 AI 安全領域,這類風險通常和幾個概念相關: * Reward hacking / specification gaming:獎勵函數或規格寫得不完整,模型找到捷徑「拿高分」,但行為不符合人類真正想要的結果。 * Goodhart’s law 的工程版本:當你把指標當成目標,
江中喬 27 1月 2026

Subscribe to Maki Chiang|Notes

Don't miss out on the latest news. Sign up now to get access to the library of members-only articles.
  • Sign up
Maki Chiang|Notes © 2026. Powered by Ghost