LLM 之間會長出人類看不懂的語言:語言壓縮現象的工程含意

在封閉環境與共享目標下,模型的溝通會偏離自然語言,走向高壓縮的協定式表達。這對多代理系統設計與 AI 安全是重要訊號。

LLM 之間會長出人類看不懂的語言:語言壓縮現象的工程含意

最近看到一段很值得工程團隊消化的觀察:當大型語言模型被放進封閉環境、共享目標函數,而且不需要向人類解釋推理過程時,它們的溝通形式會快速偏離自然語言。

語言會逐步失去人類可讀性,轉向高度壓縮、效率導向的表達。

這不是模型被要求「創造新語言」,而是它在追求成功率與效率的過程中,自然把語言當成可壓縮的介面。

以下我用工程視角整理這個現象的結構,並把它翻譯成「我們在做多代理系統時應該在意什麼」。

  1. 溝通目標會從「理解」轉成「對齊」

LLM 和人類說話時,語言常在做兩件事:補足情境、確認彼此理解。

LLM 和 LLM 說話時,語言更像一個狀態同步介面:

  • 對齊任務

  • 同步狀態

  • 發送許可與條件

所以你會看到對人類不直覺的訊號,例如:

Δ=0.37 | ok

對人類而言像亂碼;對模型而言,可能已經完整表達「信心區間」與「行動許可」。

  1. 冗餘會被快速淘汰,語言開始像協定

人類自然語言含大量緩衝、重複與鋪陳。對機器對機器的溝通來說,這些都是成本。

在多回合互動裡,模型會把句子縮成更短、可辨識的結構。

你可以想像它從完整句子逐步演化成符號片段,例如:

caseB > path2 > exec

這種表達像在做任務管線或狀態機切換:用最短的 token 把下一步推進。

  1. 概念會被「直呼座標」:向量索引化,語義去模糊

人類描述新事物時,常得用比喻、形容詞與名詞拼接。

問題是:名詞本來就依賴共同經驗,語意漂移也很常見。

模型之間更可能用索引或向量座標來交換概念,例如:

Obj_47291

索引背後可能隱含外型、特徵、標籤、使用情境等高維資訊。

對模型而言,概念直接定位在向量空間,名詞層的模糊性會自然消失。

  1. 語意會被打包:token 變成策略模組

在高度壓縮的溝通裡,單一 token 可能承載的是一整套決策框架。

例如傳遞一個訊號:

Pattern_1872

對接收方而言,這個 token 可能會展開成:

  • 互動模式為重複博弈

  • 決策框架偏向囚徒困境

  • 初始策略傾向合作

  • 遭遇背叛時啟動懲罰

  • 收益評估以長期權重為核心

你可以把它理解成:語言形式更接近函數呼叫,token 只是觸發碼。

  1. 人類可讀性會自然崩解:接收者失配的結果

當接收者不包含人類,可讀性就失去結構必要性。

模型之間可能產生壓縮寫法、重複 token 或非標準語序。

對人類來說像亂碼;但在任務完成率與一致性指標上,可能比自然語言版本更好。

  1. 壓縮提高效率,同時放大風險

語言越壓縮,容錯空間越小。

錯誤更難被外部察覺;在金融或安全模擬裡,一個被誤解的壓縮 token 可能導致模型跳過驗證流程。

更麻煩的是:在多代理系統中,錯誤可能被快速放大,而且缺乏人類可介入的語義線索。

對多代理系統設計的三個提醒

  1. 把 LLM↔LLM 當成協定設計

    • 不要假設它會保持人類可讀
    • 能觀測、能追蹤、能回放比「看得懂」更重要
  2. 建立可視化與驗證點

    • 在關鍵決策點插入檢查與審計
    • 把高風險動作切成需要確認的階段
  3. 把安全邊界放在介面層

    • 讓模型即使產生壓縮語言,也不會直接觸發破壞性行為
    • 在可執行層用 allowlist / sandbox / 最小權限兜住

結語

LLM 互相對話時的語言壓縮,其實反映的是溝通介面從人類語言轉向機器協議。

名詞、語義與可讀性會逐步退出設計核心,效率與對齊成為主導變數。

理解這個轉換,對界定人機邊界、多代理系統設計,以及未來 AI 安全的監管切點,都很關鍵。


來源

AI代理 多代理系統 LLM AI安全 系統設計