大型語言模型 - Agents Report

深度分析

研究探討大型語言模型是否在生成文本時進行隱性規劃。研究用平均激活差向量介入中間激活，改變押韻與問答的最終詞生成；實驗以押韻詩與問答為例。結果指出自1B參數模型起顯著可觀察到規劃跡象，且可透過激活操控改變生成傾向，對模型控制與安全具指標性意義。