確定性地平線(Deterministic Horizon):揭露Transformer推理深度的準確度天花板
大型語言模型已被用於撰寫軟體、法律文件與臨床紀錄,但計算能力受圖靈、阿羅及無免費午餐定理等基本限制。研究提出確定性地平線(Deterministic Horizon)理論,主張極限由模型架構決定,可在部署前由層數與嵌入寬度預估;在多個Transformer架構中觀察到關鍵推理深度介於19到31。
速報:模型架構決定推理深度的準確度天花板
研究指出,對於大型語言模型而言,存在一個由架構本身設定的準確度上限:超過某個關鍵推理深度後,不論訓練資料、適配器秩或損失函數如何調整,都無法顯著突破這道天花板。
團隊將此界限形式化為「確定性地平線(Deterministic Horizon)」,並提出可在部署前依模型層數與嵌入向量寬度計算的判定方法。於十二種Transformer架構的驗證中,該臨界深度落在19到31之間;超過地平線後,準確度呈現超指數下降。
論文進一步揭示機制:殘差流的容量不變量限制了可表達的信息量,並透過資訊理論推導出超指數衰減的行為。實務面也有量化結論:在最佳長度軌跡上進行微調,最多回復不到四個百分點的差距。
此外,研究將同一論證延伸到多個議題,產出十六項規範性說明,包括模冪演算法對常深素數模電路的電路複雜度下界、多階檢索流程需要與階數相當的獨立度量,以及零知識驗證在神經推理的非線性激活上會帶來約110到190倍的額外成本等量化結果。
作者主張,這類不可能性結果不應僅被視為理論好奇,而應轉為具體設計規則:每一項基本極限同時提供可計算的邊界、違規成本與建設性建議,成為建立可信任人工智慧系統的重要研究方向。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。