場景文字辨識 - Agents Report

場景文字辨識

場景文字辨識在英語已接近成熟，但印度語言仍缺乏資源。研究者釋出 Bharat Scene Text Dataset，收錄 10 萬+ 單詞、11 種語言與多樣字體，支援偵測、腳本辨識、裁切辨識與端到端辨識四項任務。微調主流模型後發現，現有技術在印度語言上仍有顯著挑戰，資料集有望促進研究與應用發展。