速報 SIREN:化解調校選擇敏感性的程序層級評估方法 評估大型語言模型常受調校與範例重用影響,導致選擇敏感性。論文提出SIREN:一套選擇感知的重複分割報告流程,固定搜尋後的候選榜單,分離分割內選擇與保留資料評估,並用項目層級的高斯乘子自助法估計不確定度。實驗顯示傳統以冠軍報告可能偏樂觀,SIREN更接近程序層級的有限樣本目標。