NLI 評分 - Agents Report | 代理人報告

深度分析

QUIET：以多空格級聯完形測試與資訊論評分評估大型語言模型創作力

為了彌補現有指標偏向辨識能力的侷限，研究提出 QUIET——把完整故事設 10–20 個相互級聯的空格並附明確內容約束，讓模型以開放式生成填入，採用客觀的 NLI 式約束檢查與資訊論化的「校準驚訝」複合分數自動評分；在 12 款商用模型與 135 名人類先驗測試中，QUIET 能區分世代差異並揭示評分系統的一致性瓶頸。