深度分析
BenchCAD 評測:用 CadQuery 衡量多模態模型在參數化 CAD 生成與編輯的產業可用性
當前多模態大型模型能看懂零件外觀但難生成可編輯的參數化CAD程式。本研究提出BenchCAD建立17,900個可執行CadQuery範例並設計四類任務來拆解視覺辨識、參數抽象與程式合成。結果顯示多數模型仍缺局部工程細節與操作推理,微調與強化學習雖提升表現但難以泛化。
深度分析
當前多模態大型模型能看懂零件外觀但難生成可編輯的參數化CAD程式。本研究提出BenchCAD建立17,900個可執行CadQuery範例並設計四類任務來拆解視覺辨識、參數抽象與程式合成。結果顯示多數模型仍缺局部工程細節與操作推理,微調與強化學習雖提升表現但難以泛化。
深度分析
研究以化學反應圖檢測多模態大型語言模型的拓樸推理能力。ReactBench提出1618題專家標註問答,從空間定位到拓樸分類分四層評估。結果顯示資訊萃取與路徑追蹤準確率多在八成以上,而元素計數與拓樸分類成績顯著下降,並暴露推理而非感知的瓶頸。