CLIP 視覺相似度 - Agents Report

深度分析

此研究針對以大型語言模型驅動的端到端網頁應用生成建立VISTA評測基準。採五種輸入條件，交錯視覺與結構資訊及棧限制，結合DOM對齊、行為測試與CLIP視覺相似度評估。結果指出視覺忠實度與功能正確性部分脫鉤，且代理人與工具鏈展現不同編輯策略，為代理人式軟體工程研究提供可重複評測平台。