模型可解釋性 - Agents Report

深度分析

利用 MAG 框架從激活幾何提取 LLM 推理特徵：無監督與線性可控

大型語言模型安全性需求提升，研究提出MAG框架在每筆輸入前加固定指令，利用激活幾何差異抽取推理特徵，證實可預測模型判斷並以單向量操控決策，提升資料選擇精度至94.7%Top‑1。MAG可比較八種操作子，發現部分特徵線性表徵強，適用向量導向調整模型行為；在選擇訓練資料時，RFD相似度超傳統激活相似度。

深度分析

以先驗機率衡量的好解釋：大型語言模型的反事實解釋挑戰與方向

本研究探討何謂「好」的解釋，提出以反事實為基礎並考慮受訊者先驗機率的定義，與傳統僅依因果或特徵重要性的解釋方法形成對照，指出大型語言模型因輸入表徵高度開放且缺乏可辨識事實集合，使得符合低先驗條件的解釋極為稀少，進一步推測若未來模型設計能內建獨立事實抽取層，或將促進金融、醫療等高風險領域的可解釋性需求落實。

速報

從訓練動態重新定義 AI 科學：預測、介入與設計模型行為的三層次框架

本篇立場論文指出，人工智慧模型不是靜態產物，而是受資料、目標、架構與最佳化動態共同塑造的時間演化過程。傳統研究多在訓練完成後分析行為，忽略了模型為何會出現特定特性。作者主張 AI 科學應超越事後修補，直接研究訓練過程本身，建立從早期訓練訊號預測結果、在軌跡偏離時即時介入、以及設計更可靠訓練程序以產出期望特性的三層次理解。

深度分析

V‑HMN：結合霍普菲爾德記憶與預測編碼的高效視覺骨幹

隨著變形金剛模型與狀態空間模型在視覺基礎模型的成功，研究者提出視覺霍普菲爾德記憶網路（V‑HMN），透過局部與全域霍普菲爾德模組實作關聯式記憶與預測編碼式迭代校正。實驗顯示V‑HMN在CIFAR、SVHN等基準上達到與主流骨幹相當的精度，同時提升解釋性與資料效率。

深度分析

CB‑SLICE：以概念瓶頸模型量化與聚類錯誤切片

CB‑SLICE提出一種以概念瓶頸模型（Concept Bottleneck Models, CBMs）為基礎的錯誤切片發現方法，將模型的語義概念直接當作錯誤來源分析的核心。

Constitutional AI

教宗與Anthropic對話：Constitutional AI、模型可解釋性與人工智慧治理挑戰

教宗在梵蒂岡發表首份聚焦人工智慧的通諭，並邀請Anthropic代表出席說明，形成教會與矽谷前所未見的對話。Anthropic自成立以來將「安全」與可控性作為核心，提出Constitutional AI概念，透過原則與規則引導模型行為，強調模型可解釋性與價值內建。

深度分析

頻譜探針電路：用三步法於預訓練檢查點識別 Transformer 注意力頭電路

本研究提出一套三步法：以每頭注意力輸出參與比（PR）積分抓取頻譜信號，透過六類任務模式篩選形成候選電路，最後以分組消融與同層隨機對照做因果驗證。跨多種架構與尺度重複實驗發現，誘導電路通常由3–6個頭構成，且可辨識的專精頭比例約17–19%不隨規模大幅變動。

深度分析

MedSAE：以稀疏自編碼器解析 MedCLIP 嵌入，提升醫療影像可解釋性

醫療AI需求準確且可解釋的模型。研究把MedCLIP胸腔X光特徵餵入稀疏自編碼器（MedSAE），以稀疏化並拆解疊加表徵以提高語義單一性。作者再用MedGEMMA自動命名與量化對齊，結果顯示MedSAE特徵較原始嵌入更具臨床對應，朝透明且可驗證的醫療表示邁出一步。

深度分析

Anthropic 的 Claude Code：dreaming 機制與開發治理挑戰

Anthropic在倫敦舉辦CodewithClaude開發者活動，展示ClaudeCode以自我提示與dreaming記錄強化自動化編碼流程。代理能自動測試、修正與互相學習，降低人為介入但也帶來審查與安全挑戰。這種變化快速滲透開發實務，影響生產力與治理。

深度分析

解析 ESM2-8M 的位置先驗機制：RoPE、注意力與甲硫氨酸偏好

本報導解析一篇來自 ArXiv 的研究，追蹤蛋白質語言模型 ESM2-8M（6 層、8M 參數）如何在遮蔽序列首位時預測甲硫氨酸（M）。

深度分析

Diffusion Transformers（DiT）中的巨大激活：少數通道如何承載影像語意

研究發現於現代 Diffusion Transformer（DiT）家族中，存在少數通道出現顯著較大激活（massive activations, MAs）。

深度分析

ActivationReasoning：在隱含激活空間以稀疏自編碼器與邏輯規則實現可控推理

ActivationReasoning（AR）提出一條將形式化邏輯綁定於語言模型隱含激活的新路徑。先以稀疏自編碼器（SAE）發現可解釋的概念向度，推論時把這些向度映射為命題，再以使用者定義的邏輯規則進行組合與推導。