深度分析 AISafetyBenchExplorer:度量感知的 AI 安全基準目錄揭示測量碎片化與治理薄弱 隨著大型語言模型安全評估快速成長,基準數量激增。AISafetyBenchExplorer 以結構化目錄整理 195 項 2018‑2026 年基準,揭示度量碎片化、英語單一、資源老舊等問題,並指出缺乏共享測量語言與治理機制是主要瓶頸。