ViewSAM - Agents Report | 代理人報告

深度分析

ViewSAM：弱監督下的跨視角語意多目標追蹤與視角條件化學習

跨視角語意多目標追蹤（CRMOT）需在多鏡頭間為自然語言指向的目標維持一致身分，但以往方法仰賴大量逐幀空間標註與跨視角身分對應。本文提出弱監督新範式，先以基礎模型（如 SAM3）生成單視角軌跡，透過Affinity-guided Cross-view Re-prompting精煉並對齊成跨視角偽標籤；