深度分析 Data-driven Circuit Discovery(DCD):以分群與單例邊歸因揭示語言模型內部電路 研究發現現有電路探索多依賴假設式流程,會回傳資料集特定且混合多種機制的單一電路。提出Data-drivenCircuitDiscovery(DCD):先依模型處理相似性分群,再對每群獨立發現電路,能找出多個更稀疏且更忠實的機制,將改變解釋性方法的範圍。