SIREN:化解調校選擇敏感性的程序層級評估方法
評估大型語言模型常受調校與範例重用影響,導致選擇敏感性。論文提出SIREN:一套選擇感知的重複分割報告流程,固定搜尋後的候選榜單,分離分割內選擇與保留資料評估,並用項目層級的高斯乘子自助法估計不確定度。實驗顯示傳統以冠軍報告可能偏樂觀,SIREN更接近程序層級的有限樣本目標。
SIREN:選擇感知的重複分割報告協定
評估大型語言模型時,若把基準題用於調校,搜尋出的「冠軍」分數可能無法代表調校後在新資料的真實表現。作者提出 SIREN,先凍結搜尋後的候選清單,將分割內的選擇程序與保留集評估分開,並採用項目層級的高斯乘子自助法來量化不確定度。
在固定候選名單與穩定化選擇的情況下,估計量可展開為項目級的一階表示,所設計的自助法對有限預算格點提供有效的同時推論,讓研究者可對程序表現曲線與預先指定的同預算或跨預算比較建立信賴區間。模擬實驗與 MMLU-Pro 微調案例顯示,單靠冠軍報告容易樂觀,可能改變部署決策,而 SIREN 更貼近有限樣本的程序層級目標。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。