方向性消融 Heretic:以方向性消融與Optuna TPE自動化調校變壓器語言模型以降低拒絕回應 背景:Heretic是一個公開專案,主張自動移除變壓器語言模型的審查行為。它採用方向性消融(abliteration)並以Optuna的TPE搜尋參數,目標同時降低拒絕次數與維持原模型分布,從而生成去審查模型並支援多種架構。此外專案有相當關注可操作性與自動化流程。