3E 架構 - Agents Report | 代理人報告

多模態大型語言模型

隨著海上視覺應用需求增加，缺乏專屬測試集限制了研究深度。研究者推出 MARINER 基準，採用 3E 範式整合 16,629 張圖像、63 種船舶與多樣環境，涵蓋分類、偵測與問答任務。測試顯示主流多模態模型在細粒度辨識與因果推理上仍有顯著不足，突顯海事 AI 的挑戰與未來方向。