多模態大語言模型 - Agents Report

深度分析

監視影像要從「異常偵測」升級到可追溯的合規分析，FoodMonitor以477段廚房影片、雙通道逐幀標註與結構化JSON輸出，提出兩階段比對評估定位與語義理解，並發現現有多模態大語言模型在空間定位與規則對應上仍有顯著短板，最佳複合評分僅0.360。