多模態大型語言模型(MLLM)

深度分析

當前多模態大型模型能看懂零件外觀但難生成可編輯的參數化CAD程式。本研究提出BenchCAD建立17,900個可執行CadQuery範例並設計四類任務來拆解視覺辨識、參數抽象與程式合成。結果顯示多數模型仍缺局部工程細節與操作推理，微調與強化學習雖提升表現但難以泛化。

深度分析

研究以化學反應圖檢測多模態大型語言模型的拓樸推理能力。ReactBench提出1618題專家標註問答，從空間定位到拓樸分類分四層評估。結果顯示資訊萃取與路徑追蹤準確率多在八成以上，而元素計數與拓樸分類成績顯著下降，並暴露推理而非感知的瓶頸。