深度分析 CRAFT(群集回歸):結合 TF-IDF 與密集嵌入的高效資料選樣 大規模平行語料下,挑選小量且相關的訓練對成為精調關鍵。CRAFT把來源與目標向量分別分群,先按來源群集比例分配配額,再於每個來源群內挑選使目標向量預期距離最小的訓練對。實驗指出CRAFT在相同候選池與編碼器下,BLEU超越TSDS且選樣速度明顯加速。