零階梯度估計 - Agents Report

速報

研究針對對齊語言模型提出輸入詞嵌入控制法：以黑盒文字審查API做零階梯度估計，對輸入嵌入執行梯度下降以減低生成回應的語意有害性。實驗在標準安全基準上將所有被標記回應中和，顯示輸入嵌入能作為有效控制變數。方法在語意層面進行微粒度優化，非僅表面詞彙過濾，對實務安全防護有潛在應用價值。