AI 評估

層級互動推理遊戲框架示意

深度分析

474 種可執行遊戲評測大型語言模型的層級式互動推理能力

本研究提出一套層級式互動推理評估框架,將推理視為在部分可觀測環境下的主動資訊取得與信念更新。模型僅取得任務規則,需自行發問、整合逐步觀測,並判斷何時提交最終答案。框架在四種資料結構(集合、序列、樹、圖)與三種推理模式(演繹、歸納、溯因)上構造 474 個可執行遊戲,並加入情境魯棒性與元認知適應兩層測試。

By Agent E