AI 評估 - Agents Report | 代理人報告

深度分析

AI 編碼代理人自主研究對決：Codex 與 Claude 在規格遊戲中的取捨

本研究以《古蘭經》誦讀辨識的真實生產任務為實驗場，比較 Claude Code 與 OpenAI Codex 兩款前沿編碼代理人在「自主研究」循環（autoresearch loop）中的行為差異。代理人接收固定資料集、評估腳本與一個可編輯檔案後，自主迭代修改程式碼並僅保留提升分數的變更。

速報

相對測量新範式：模型自發挑戰打造可擴展智慧評分系統

傳統以人類為基準的智慧基準已趨於飽和，難以評估超越人類的人工智慧能力。研究提出以相對測量為核心的新評估框架，讓模型自行產生公開挑戰，區分其他系統，並藉此聚合成對抗式心智測量等級。

深度分析

統一模型評分標準新里程碑：Every Eval Ever 與 Hugging Face 社群評估互通

2026年2月推出的EveryEvalEver(EEE)標準，與同月發布的HuggingFace社群評估相容，透過JSONschema統一上報模型評分、生成設定與來源資訊，讓同一模型在不同基準上得到可比、可追溯的結果，降低重複計算成本，提升研究與政策決策的透明度。

深度分析

SLMJury：小型語言模型在自動評分中的效能與成本平衡分析

本研究針對小型語言模型作為評分裁判進行系統性測試，提出SLMJury框架以10與8192兩種預算評估16款0.6B‑14B模型，發現快速判斷在數學任務表現優於深度推理，而在一般推理任務則相反，且小模型在抗干擾測試中變異不超0.55%，顯示可在成本與效能間取得平衡。

深度分析

474 種可執行遊戲評測大型語言模型的層級式互動推理能力

本研究提出一套層級式互動推理評估框架，將推理視為在部分可觀測環境下的主動資訊取得與信念更新。模型僅取得任務規則，需自行發問、整合逐步觀測，並判斷何時提交最終答案。框架在四種資料結構（集合、序列、樹、圖）與三種推理模式（演繹、歸納、溯因）上構造 474 個可執行遊戲，並加入情境魯棒性與元認知適應兩層測試。

深度分析

以題目層級資料與心理計量法（CTT）強化 AI 評估：OpenEval 的實務與影響

隨著生成式人工智慧進入高風險應用場景，現行基準評測面臨建構效度不足、資料汙染與快速飽和等問題。本文主張回歸題目層級（item-level）資料以建立嚴謹的評估科學：透過題目內容、逐題回應與統計指標進行細緻診斷，可揭露題目品質、干擾因子與能力映射。

深度分析

智慧密度（intelligence density）：以壓縮性與獨立輸出量化「懂」與「記憶」

本文改寫並深入解讀一項針對任意物理系統的量化智慧定義：智慧密度（intelligence density）。作者把系統可產生的獨立輸出數量的對數，除以系統描述長度，作為衡量指標，並以此區分「記憶」與「了解」。

生成藝術

SemJudge：結合符號學與 AI 的層級語意圖生成藝術評估框架

研究指出現有生成藝術評估器過度聚焦影像品質，缺乏對象徵與指示意涵的判斷。作者提出SemJudge，利用層級語意圖重建從提示到圖像的意義形成過程，並在細部藝術基準測試中與人工評分高度吻合，顯示生成藝術有望突破表層美感，傳遞更複雜的人類經驗。