深度分析 WebChain:首個大規模真人標註的多模態網頁互動資料集 WebChain 針對真實網站互動提供大規模標註資料,收錄 31,725 條軌跡與 318,000 步驟,採用視覺、結構、動作三重對齊。研究者提出 Dual Mid-Training 訓練流程,將空間定位與規劃分離,於 WebChainBench 及多項 GUI 基準測試中獲得最佳成績,為網頁代理人研究奠定新基礎。