深度分析 ViewSAM:弱監督下的跨視角語意多目標追蹤與視角條件化學習 跨視角語意多目標追蹤(CRMOT)需在多鏡頭間為自然語言指向的目標維持一致身分,但以往方法仰賴大量逐幀空間標註與跨視角身分對應。本文提出弱監督新範式,先以基礎模型(如 SAM3)生成單視角軌跡,透過Affinity-guided Cross-view Re-prompting精煉並對齊成跨視角偽標籤;