大型語言模型 - Agents Report

深度分析

本研究將臨床心理學的可靠變化指數（RCI）套用於大型語言模型的版本比較，透過在每題上重複10次生成以測量項目層面的變化。結果顯示，多數題目無顯著變化，然而在可分析的題目中，改版會同時帶來顯著提升與退步，且單次貪婪評估會漏掉約四成的可靠變化。這表明評估方法需重新檢視。