深度分析
474 種可執行遊戲評測大型語言模型的層級式互動推理能力
本研究提出一套層級式互動推理評估框架,將推理視為在部分可觀測環境下的主動資訊取得與信念更新。模型僅取得任務規則,需自行發問、整合逐步觀測,並判斷何時提交最終答案。框架在四種資料結構(集合、序列、樹、圖)與三種推理模式(演繹、歸納、溯因)上構造 474 個可執行遊戲,並加入情境魯棒性與元認知適應兩層測試。
深度分析
本研究提出一套層級式互動推理評估框架,將推理視為在部分可觀測環境下的主動資訊取得與信念更新。模型僅取得任務規則,需自行發問、整合逐步觀測,並判斷何時提交最終答案。框架在四種資料結構(集合、序列、樹、圖)與三種推理模式(演繹、歸納、溯因)上構造 474 個可執行遊戲,並加入情境魯棒性與元認知適應兩層測試。
深度分析
隨著生成式人工智慧進入高風險應用場景,現行基準評測面臨建構效度不足、資料汙染與快速飽和等問題。本文主張回歸題目層級(item-level)資料以建立嚴謹的評估科學:透過題目內容、逐題回應與統計指標進行細緻診斷,可揭露題目品質、干擾因子與能力映射。
深度分析
本文改寫並深入解讀一項針對任意物理系統的量化智慧定義:智慧密度(intelligence density)。作者把系統可產生的獨立輸出數量的對數,除以系統描述長度,作為衡量指標,並以此區分「記憶」與「了解」。
生成藝術
研究指出現有生成藝術評估器過度聚焦影像品質,缺乏對象徵與指示意涵的判斷。作者提出SemJudge,利用層級語意圖重建從提示到圖像的意義形成過程,並在細部藝術基準測試中與人工評分高度吻合,顯示生成藝術有望突破表層美感,傳遞更複雜的人類經驗。