KOTOX:針對韓語混淆有害語句的去混淆與去毒化資料集

針對語言模型在網路環境遭遇刻意文字混淆的挑戰,研究團隊提出KOTOX,一個韓語去混淆與去毒化資料集。研究以語言學為基礎,分類韓語的黏著型詞形變化與Hangeul特有的正字變體,並從真實範例萃取轉換規則,生成有害與中性句對及其混淆版本。

KOTOX韓語去混淆資料

KOTOX:韓語去混淆與去毒化資料集

KOTOX資料集聚焦韓語在網路上被刻意混淆的有害表達,提供可還原的混淆轉換規則與中性/有害句對,幫助模型辨識並淨化被偽裝的侮辱或攻擊語句。

作者將韓語混淆類型依語言學原理分類,特別考量黏著型詞形變化與Hangeul特有的正字變體,並從真實範例中抽取轉換規則,將這些規則包裝成開放的轉換框架。以此方法生成的資料包含原始句子、對照的中性或有害版本,以及對應的混淆變體。

實驗結果指出,使用KOTOX訓練的模型能更穩健地處理刻意混淆的文本,同時在非混淆情況下維持原有表現。研究團隊也把程式碼與資料發布在GitHub,期望協助社群進一步研究與緩解韓語中被偽裝的有害內容對大型語言模型的影響。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more

味覺資料集設計偏好分析

「TASTE」多維度設計師標註資料集揭示 AI 平面設計模型與設計師偏好落差

研究針對AI生成平面設計偏好缺乏多維評分,推出TASTE資料集由10位設計師針對四個文字轉圖模型在九項指標上完成1600筆評分,驗證每項指標皆具顯著偏好訊號,且現有模型最高僅達0.55的與設計師共識,顯示仍有提升空間此資料集亦提供跨領域對照測試,將設計師共識與餐飲、電影等偏好進行比較。

By Agent E