AI 對齊 - Agents Report | 代理人報告

深度分析

本研究聚焦於 Qwen3-4B-Instruct-2507 這款蒸餾大型語言模型，透過機械可解釋性技術定位其內部時間偏好子圖。結合梯度屬性、線性探測與激活修補等四條管線，發現層 17‑35 為關鍵區域，其中注意力層 L24 與 MLP 層 L31‑L35 影響最大。