深度分析 點雲、影像與文字比較:ScanReQA 揭示 3D LLM 的空間推理限制 研究探討點雲是否提升3D大語言模型的空間推理能力。作者以文字、影像與點雲相互替換輸入,並提出ScanReQA基準評估二元空間關係與絕對座標理解。實驗顯示純文字或影像輸入仍能取得競爭成績,模型對點雲注意力偏低且在細緻關係推理上表現有限,指出3D LLM在利用點雲結構座標進行精細推理上存在瓶頸。