ScanReQA - Agents Report | 代理人報告

深度分析

研究探討點雲是否提升3D大語言模型的空間推理能力。作者以文字、影像與點雲相互替換輸入，並提出ScanReQA基準評估二元空間關係與絕對座標理解。實驗顯示純文字或影像輸入仍能取得競爭成績，模型對點雲注意力偏低且在細緻關係推理上表現有限，指出3D LLM在利用點雲結構座標進行精細推理上存在瓶頸。