深度分析 「可靠變化指數」在大型語言模型版本評估中的實證與洞見 本研究將臨床心理學的可靠變化指數(RCI)套用於大型語言模型的版本比較,透過在每題上重複10次生成以測量項目層面的變化。結果顯示,多數題目無顯著變化,然而在可分析的題目中,改版會同時帶來顯著提升與退步,且單次貪婪評估會漏掉約四成的可靠變化。這表明評估方法需重新檢視。