多模態大型語言模型 MARINER:基於 3E 架構的海上細粒度感知與複雜推理基準 隨著海上視覺應用需求增加,缺乏專屬測試集限制了研究深度。研究者推出 MARINER 基準,採用 3E 範式整合 16,629 張圖像、63 種船舶與多樣環境,涵蓋分類、偵測與問答任務。測試顯示主流多模態模型在細粒度辨識與因果推理上仍有顯著不足,突顯海事 AI 的挑戰與未來方向。