深度分析 QUIET:以多空格級聯完形測試與資訊論評分評估大型語言模型創作力 為了彌補現有指標偏向辨識能力的侷限,研究提出 QUIET——把完整故事設 10–20 個相互級聯的空格並附明確內容約束,讓模型以開放式生成填入,採用客觀的 NLI 式約束檢查與資訊論化的「校準驚訝」複合分數自動評分;在 12 款商用模型與 135 名人類先驗測試中,QUIET 能區分世代差異並揭示評分系統的一致性瓶頸。