可解釋性 - Agents Report | 代理人報告 (Page 2)

深度分析

以人類注視地圖微調 Vision Transformer（ViT）：提升注意力對齊與可解釋性且不損分類性能

本研究把人類凝視密度圖用作微調視覺轉換器的自注意力權重，並以洗牌控制驗證信號語義性。微調後模型在五項顯著性度量上與人類注視更接近，且自發出現三類人類注意偏好：動物優先、小物體偏好與注意更集中。關鍵發現是，這類對齊在原始、受損與分布外影像上未造成分類性能下降。

速報

擾動歸因揭示：LLM微調策略如何改變程式規範的解釋行為

本研究針對大型語言模型在自動化程式規範任務的可解釋性進行比較性實驗。作者以擾動式歸因分析檢視不同微調策略，包括完整微調(FFT)、參數高效率的LoRA與量化LoRA，並比較多種模型規模對解釋行為的影響。結果顯示完整微調會產生統計上顯著且更集中的歸因模式；

深度分析

R-LOCO：區域化方法提升局部與全域特徵重要性解釋可靠性

本研究針對 Local Shapley Values 與 LIME 的局部解釋限制展開分析，指出它們在理想計算條件下仍會錯誤標示不相關特徵。為彌補此缺陷，作者提出 R-LOCO，先將資料空間分割成特徵重要性相似的區域，再於區域內套用全域解釋方法，產生更精確的局部貢獻。結果顯示 R-LOCO 能降低局部解釋的不穩定性，提升解釋可信度。

深度分析

Pando：揭示模型在無說明與誤導情境下可解釋性工具的真實效能

本研究針對模型可能不提供說明的情況，設計 Pando 基準以評估可解釋性工具。實驗在 720 個決策樹模型上比較說明有無與不同工具的效能，發現梯度屬性和 RelP 能提升預測準確，其他方法無顯著貢獻。結果凸顯需避免引出效應，以正確衡量解釋方法。

神經符號 AI

神經符號式強人工智慧機器人：閉合知識假設與 Belnap 雙格推理框架

本研究在強人工智慧機器人領域引入閉合知識假設，利用 Belnap 四值雙格處理未知與矛盾資訊，並結合神經網路與符號推理以實現因果導向的邏輯推斷。結果顯示，機器人可在學習過程中持續擴充知識庫，同時保有受控安全性與對悖論的容錯能力，對通用人工智慧的安全與可解釋性具有重要影響。