深度分析 SCBench:階層化空間推理與規劃評測框架解析 隨著大型模型在空間推理需求上升,研究者提出 SCBench 以階層任務測試模型的內部環境表徵與規劃能力。透過可驗證的執行輸出,三款前沿模型在能力層級上呈遞減趨勢,且低代幣預算即獲顯著提升,失敗多因全域約束違反。(原文未詳述)