遞迴語言模型循環的持久定向:上下文更新規則如何決定逃逸與持續性

本研究檢視遞迴語言模型循環被外部注入文本重定向的持久性。比較append、replace與dialog三種上下文更新規則,在12,000字尾截斷條件下,目的地一致性持續率約16%,來源逃逸保留約36%;在完整歷史協定下,來源逃逸於約400token越過50%,至1,500token飽和至75–80%。

遞迴模型上下文更新逃逸持續

重點一言以蔽之

實驗顯示:能把語言模型循環從既有吸引態推開的註入文本量,深受上下文更新規則與記憶截斷策略影響。

研究方法與主要發現

作者在30步遞迴循環中把生成器與上下文更新規則分離,測試append、replace與dialog三種更新機制。結果指出,append模式下的持久重定向受限於記憶政策:在12,000字尾截斷情境,目的地一致性持續率在高劑量時大約停在16%,來源逃逸保留約36%,兩者均未跨過50%。

改以完整歷史協定時,來源基底的逃逸率在約400 token 越過50%,並在1,500 token 附近飽和到75–80%;目的地一致性在接近1,500 token 時才達到約0.50(Wilson95% CI [0.41,0.61])。作者以四步偽證電池重新檢視高劑量下的目的地一致性下陷,認為這是有限視界與終點定義敏感的現象,而非永續性結構不對稱。

其他觀察與建議

在replace模式下的切換率看似接近飽和,但多半反映狀態重置;以insert模式探針能把該數值降到12–32%。研究共報告37項在gpt-4o-mini上的實驗,並於gpt-4.1-nano做同廠複現。作者建議未來遞迴循環評估應明確區分暫時移動與持久逃逸、扣除隨機底噪,並把上下文更新規則當成重要的安全設計選項。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more