DSAM - Agents Report | 代理人報告

深度分析

雙流 DSAM＋VAA：將 LVLM 調適為多語網頁影像翻譯引擎

網頁影像中的文本常因字形多樣、版面複雜與背景雜訊而難以直接翻譯，這類任務要求同時完成辨識與語意理解。本文介紹一個端對端框架 Visual-Aware（文中命名），以雙流視覺編碼配合雙向注意力的 Dual-Stream Attention Module（DSAM），將高階語義與低頻形態細節互相引導融合；