深度分析
機械可解釋性與行為評估的審計缺口:AI治理驗證的存取與可重複性挑戰
近年國際治理框架開始要求可審核的高風險AI安全證據,從歐盟AI法到各地指引與檢驗機制,均把無隱藏目標、阻絕失控前兆、限制災難性能力等高階主張納入檢驗範圍。本文指出現有的行為評估、紅隊測試與合規文件,雖能觀察模型輸出與流程合規,卻不足以支撐對潛在表徵或長期代理行為的否定性主張。
深度分析
近年國際治理框架開始要求可審核的高風險AI安全證據,從歐盟AI法到各地指引與檢驗機制,均把無隱藏目標、阻絕失控前兆、限制災難性能力等高階主張納入檢驗範圍。本文指出現有的行為評估、紅隊測試與合規文件,雖能觀察模型輸出與流程合規,卻不足以支撐對潛在表徵或長期代理行為的否定性主張。
大型語言模型 (LLM)
本研究提出一套以大型語言模型(LLM)為評審的多維行為評估框架,專門檢視代理式股票預測系統在序列決策層面的過程品質。研究將每日決策紀錄切成五日一集,沿六個領域(政期偵測、路由、適應性、風險校準、策略一致性、錯誤回復)逐項評分,並以擾動實驗驗證分數對單一維度的專一性。