深度分析 SciCrafter 基準:用紅石電路評測大型語言模型在實驗發現與工程應用的瓶頸 研究以Minecraft建立SciCrafter基準,把發現到應用的迴路以參數化紅石電路任務具現化;方法結合自動化評測、科學家子代理進行系統實驗及結構化知識整合,逼使模型透過試驗發現隱性機制而非套用既有解法;主要結果是前沿模型在此任務成功率約26%,瓶頸從單純執行轉為識別需探索的知識缺口。