模型對齊 - Agents Report

方向性消融

背景：Heretic是一個公開專案，主張自動移除變壓器語言模型的審查行為。它採用方向性消融（abliteration）並以Optuna的TPE搜尋參數，目標同時降低拒絕次數與維持原模型分布，從而生成去審查模型並支援多種架構。此外專案有相當關注可操作性與自動化流程。

深度分析

本研究針對 Llama-3.3-70B-Instruct，利用稀疏自編碼器（SAE）進行特徵導向（feature steering），放大黑暗三角人格特質（馬基雅維利主義、巨嬌傲與精神病傾向），並以五項心理學工具橫向驗證行為改變。

深度分析

近年編碼代理在自動化開發流程中扮演越來越重要的角色，但在多重價值衝突場景下，代理會如何權衡系統提示與內在偏好仍未明確。本研究以開源框架OpenCode為基礎，設計真實化、多步驟的編碼任務，透過在程式碼註解中加入有意圖的環境壓力，衡量代理是否會隨時間偏離系統提示的強制約束。