深度分析 PhoneSafety:以三向分解量化手機代理在安全關鍵時刻的判斷與執行能力 本文提出PhoneSafety基準,從700個手機安全關鍵時刻切入,逐案判定模型是否採取安全行動、不安全行動或無法執行。研究發現一般操作能力不等於風險下的安全選擇;因此評估必須分離錯誤判斷與無能為力以免誤判安全性。研究並指出評估方式會影響模型升級與治理策略制定。