資料集 - Agents Report | 代理人報告

速報

針對語言模型在網路環境遭遇刻意文字混淆的挑戰，研究團隊提出KOTOX，一個韓語去混淆與去毒化資料集。研究以語言學為基礎，分類韓語的黏著型詞形變化與Hangeul特有的正字變體，並從真實範例萃取轉換規則，生成有害與中性句對及其混淆版本。

速報

研究指出現有個資偵測資源分散且標註互不相容。PIIBench整合十個公開資料集，將80多種來源標籤標準化為BIO格式並採頻率抑制與分層80/10/10切分。對八套既有系統評測顯示span-level F1均低於0.14，呈現明顯難度上升且資料更全面。

深度分析

合成資料是大型語言模型訓練的常見做法。研究比較了提示詞設計、生成模型與來源資料三個面向，發現結構化輸出如表格與教學最有效；生成模型超過 1 億參數無明顯提升；原始資料選取亦關鍵。最終推出的 FinePhrase 資料集在效能與成本上雙贏。