深度分析
PSA-Eval 運行時評估:針對公開場域三語代理人的失效可追蹤治理
隨著語言代理人進入銀行大廳等公開場域,平均分數掩蓋了跨語言與邊界的系統性失效。PSA-Eval提出以失效為單位的運行時評估鏈:三語等價題組→批次執行→得分→失效個案標記→修補→回歸批次,讓錯誤可追溯、審核與測試。試點在一套三語數位接待系統上執行,81樣本顯示多組別存在語言間分數漂移,指出高總分不等於部署穩定性。
深度分析
隨著語言代理人進入銀行大廳等公開場域,平均分數掩蓋了跨語言與邊界的系統性失效。PSA-Eval提出以失效為單位的運行時評估鏈:三語等價題組→批次執行→得分→失效個案標記→修補→回歸批次,讓錯誤可追溯、審核與測試。試點在一套三語數位接待系統上執行,81樣本顯示多組別存在語言間分數漂移,指出高總分不等於部署穩定性。
深度分析
語言模型代理人在開放式決策任務中需同時具備探索與利用能力。研究者設計了可程式調整難度的部分可觀測 2D 格子環境,並提出政策無關的探索與利用錯誤度量。實驗顯示即便是最先進模型仍有明顯失敗模式,推理模型經簡易調整後表現顯著提升,為未來 AI 代理人評估提供新基準。