度量標準化 - Agents Report

深度分析

隨著大型語言模型安全評估快速成長，基準數量激增。AISafetyBenchExplorer 以結構化目錄整理 195 項 2018‑2026 年基準，揭示度量碎片化、英語單一、資源老舊等問題，並指出缺乏共享測量語言與治理機制是主要瓶頸。