拓樸推理 - Agents Report

深度分析

研究以化學反應圖檢測多模態大型語言模型的拓樸推理能力。ReactBench提出1618題專家標註問答，從空間定位到拓樸分類分四層評估。結果顯示資訊萃取與路徑追蹤準確率多在八成以上，而元素計數與拓樸分類成績顯著下降，並暴露推理而非感知的瓶頸。