深度分析 ReactBench 與 ChemReaction:量化 MLLM 在化學反應圖拓樸推理的能力與缺口 研究以化學反應圖檢測多模態大型語言模型的拓樸推理能力。ReactBench提出1618題專家標註問答,從空間定位到拓樸分類分四層評估。結果顯示資訊萃取與路徑追蹤準確率多在八成以上,而元素計數與拓樸分類成績顯著下降,並暴露推理而非感知的瓶頸。