可解釋性 - Agents Report

深度分析

從 ICAI 到 ICAI+：改善原則品質、組合模糊與跨模型可移植性

偏好資料僅記錄選擇而無說明，憲法式ICAI試圖以自然語言原則壓縮資料，然而原則組合未明確導致執行結果差異。研究發現ICAI+可提升原則覆蓋與一致性，使透明執行器接近LLM判斷表現，此結果顯示僅靠文字原則不足以形成完整決策規則，必須同時考慮執行器設計與跨模型可移植性。

深度分析

Neuro‑Symbolic Drive：結合規則式規劃與視覺語言模型的自駕車推理框架

為提升自駕車語言模型的可解釋性與行為一致性，研究者將傳統規則式規劃器的執行痕跡轉換為結構化推理序列，作為視覺語言模型的監督。實驗在模擬環境中顯示，加入詳細規則推理可將3秒ADE從0.47降至0.26，失敗率亦下降近二成，顯示規則導向的推理能顯著提升安全性。

深度分析

以四大對稱性構建可操作的可解釋 AI 模型

本篇報導探討近期提出的以四大對稱性作為可解釋性基礎的研究，指出現有解釋方法缺乏可操作的原則，並以對稱性作為「第一原理」來統一推導模型設計、概念對齊與反事實推理。文章比較了 ECSEL、SIM 以及其他新興工具，說明新框架如何在保持可解釋性的同時，提升計算效率與應用彈性。

深度分析

重正化群映射全連接深度神經網路訓練過程：理論與可解釋性分析

本研究探討全連接深度神經網路的可解釋性，將其訓練過程等同於統計物理的重正化群，針對指數族連續分布進行推導，證明最佳化後的特徵層參數即為RG固定點，此結果不僅驗證了先前在一維Ising模型上的等價性，也為未來將RG概念應用於更複雜的實際資料提供理論基礎。

速報

BEAMS倡議：以 sd ai 開源框架建立可解釋的建模與模擬基準

面向真實決策的AI工具必須能建立可解釋的模擬模型並支援人類專業互補。BEAMS倡議以開放數位與組織基礎設施協作評估建模與模擬工具。評估實作多項自動化測試含因果轉譯、模型迭代、因果推理、合規、模型行為說明與建模建議。結果顯示此類工具在討論與定性任務表現優於因果推理與定量錯誤修正。

深度分析

Transformer 語法能力系統性回顧：337 篇研究、1,015 項模型測試的比較與可解釋性觀察

本篇系統性回顧匯整337篇關於Transformer語言模型（TLMs）對句法知識評估的研究，包含1,015項模型結果。作者分析方法類型（行為、探針、機制），揭示研究過度集中於英語與少數模型（如BERT），且模型在形式句法現象表現相對穩健，但在語法—語意交界（例如指代綁定、filler–gap）上表現較弱且變異大。

速報

READER：以推理驅動的 AI 文本檢測器登場

面對大型語言模型與人類創作愈加難以區分的挑戰，研究團隊提出 READER，一款強化推理的 AI 文本檢測器。READER 透過一套名為 READ 的監督理由集進行微調，使模型在判斷前先生成結構化理由，再輸出人類或 AI 的判定結果。此設計同時將可解釋性納入決策流程，讓檢測結果不只給出標籤，也能說明依據。

速報

概念啟動向量(CAV)不穩定性檢視與α‑TCAV的機率化校準

研究發現概念啟動向量(CAV)與TCAV測試具高度隨機性。作者推導主要CAV變種的分布，指出標準TCAV分數依賴不連續指示函數，導致變異不衰減。提出α‑TCAV，用參數化平滑函數取代指示符，建立機率化框架並提出具體調參建議以改善效率與校準。