多語言模型預測評估 - Agents Report

深度分析

Litmus (Re)Agent：多語言模型預測評估的結構化代理基準系統

本研究針對多語言模型缺乏直接評估結果的情況，提出一套 1,500 題的受控基準，涵蓋六項任務與五種證據情境，並開發 Litmus (Re)Agent 代理系統，利用 DAG 方式分解假設、檢索證據並特徵感知聚合預測。實驗證明在證據稀少的轉移情境中，此系統的預測精度顯著提升，展示結構化代理推理在多語言性能估測上的潛力。