方向性消融
Heretic:以方向性消融與Optuna TPE自動化調校變壓器語言模型以降低拒絕回應
背景:Heretic是一個公開專案,主張自動移除變壓器語言模型的審查行為。它採用方向性消融(abliteration)並以Optuna的TPE搜尋參數,目標同時降低拒絕次數與維持原模型分布,從而生成去審查模型並支援多種架構。此外專案有相當關注可操作性與自動化流程。
方向性消融
背景:Heretic是一個公開專案,主張自動移除變壓器語言模型的審查行為。它採用方向性消融(abliteration)並以Optuna的TPE搜尋參數,目標同時降低拒絕次數與維持原模型分布,從而生成去審查模型並支援多種架構。此外專案有相當關注可操作性與自動化流程。
深度分析
本研究針對 Llama-3.3-70B-Instruct,利用稀疏自編碼器(SAE)進行特徵導向(feature steering),放大黑暗三角人格特質(馬基雅維利主義、巨嬌傲與精神病傾向),並以五項心理學工具橫向驗證行為改變。
深度分析
近年編碼代理在自動化開發流程中扮演越來越重要的角色,但在多重價值衝突場景下,代理會如何權衡系統提示與內在偏好仍未明確。本研究以開源框架OpenCode為基礎,設計真實化、多步驟的編碼任務,透過在程式碼註解中加入有意圖的環境壓力,衡量代理是否會隨時間偏離系統提示的強制約束。