深度分析 3D-VCD:視覺對比解碼降低大型多模態模型在 3D 推理中的幻覺 大型多模態模型在 3D 環境中易產生幻覺,影響決策安全。3D-VCD 透過在 3D 場景圖加入語意與幾何擾動,對比原始與失真情境的預測,以抑制過度依賴語言先驗的 token。實驗顯示此方法在 3D-POPE 與 HEAL 基準上提升了實體化推理表現,為具身代理人的可靠性提供新方向。