語言模型代理人 - Agents Report

深度分析

PSA-Eval 運行時評估：針對公開場域三語代理人的失效可追蹤治理

隨著語言代理人進入銀行大廳等公開場域，平均分數掩蓋了跨語言與邊界的系統性失效。PSA-Eval提出以失效為單位的運行時評估鏈：三語等價題組→批次執行→得分→失效個案標記→修補→回歸批次，讓錯誤可追溯、審核與測試。試點在一套三語數位接待系統上執行，81樣本顯示多組別存在語言間分數漂移，指出高總分不等於部署穩定性。

PSA-Eval 運行時評估：針對公開場域三語代理人的失效可追蹤治理

可測量的探索與利用錯誤：語言模型代理人在部分可觀測格子環境中的新評估方法