深度分析 VISTA 基準:以 LLM 驅動代理人,結合 DOM 對齊、CLIP 視覺相似度與瀏覽器行為測試評估多頁前端應用 此研究針對以大型語言模型驅動的端到端網頁應用生成建立VISTA評測基準。採五種輸入條件,交錯視覺與結構資訊及棧限制,結合DOM對齊、行為測試與CLIP視覺相似度評估。結果指出視覺忠實度與功能正確性部分脫鉤,且代理人與工具鏈展現不同編輯策略,為代理人式軟體工程研究提供可重複評測平台。