深度分析 FoodMonitor 基準:以逐幀定位與結構化生成評估廚房合規監測的多模態大語言模型 監視影像要從「異常偵測」升級到可追溯的合規分析,FoodMonitor以477段廚房影片、雙通道逐幀標註與結構化JSON輸出,提出兩階段比對評估定位與語義理解,並發現現有多模態大語言模型在空間定位與規則對應上仍有顯著短板,最佳複合評分僅0.360。