高斯乘子自助法 - Agents Report

速報

評估大型語言模型常受調校與範例重用影響，導致選擇敏感性。論文提出SIREN：一套選擇感知的重複分割報告流程，固定搜尋後的候選榜單，分離分割內選擇與保留資料評估，並用項目層級的高斯乘子自助法估計不確定度。實驗顯示傳統以冠軍報告可能偏樂觀，SIREN更接近程序層級的有限樣本目標。