規則綁定 - Agents Report

深度分析

StemBind：揭示多模態大型語言模型在抽象視覺推理中的規則綁定缺口

隨著多模態大型語言模型在抽象視覺推理上展現出「規則正確但答案錯」的現象，研究者推出StemBind診斷基準，透過同一視覺題幹的感知、規則與完整三題測試，發現超過半數模型在規則綁定步驟失敗，規模與思考模式亦未能改善。此結果顯示當前模型仍缺乏將抽象規則映射至具體選項的能力，呼籲未來研究聚焦於規則綁定機制與更精細的評估。