深度分析 雙流 DSAM+VAA:將 LVLM 調適為多語網頁影像翻譯引擎 網頁影像中的文本常因字形多樣、版面複雜與背景雜訊而難以直接翻譯,這類任務要求同時完成辨識與語意理解。本文介紹一個端對端框架 Visual-Aware(文中命名),以雙流視覺編碼配合雙向注意力的 Dual-Stream Attention Module(DSAM),將高階語義與低頻形態細節互相引導融合;