新發現:Chinese-Word-Vectors 提供百餘種中文詞向量與 CA8 評測資源
在 GitHub 上發現一個高品質開源專案 Chinese-Word-Vectors,收錄超過一百組預訓練中文詞向量,包含密集向量與稀疏向量,並支援詞、ngram、字等多種表示與語境特徵。專案同時提供中文類比推理資料集 CA8 與評測工具,便於研究者比較內在與外在評估表現。
快速速報
GitHub 出現高品質開源專案 Chinese-Word-Vectors,提供逾百組預訓練中文詞向量與配套評測資料,對中文 NLP 研究與下游應用很實用。
內容重點
專案收錄多種表示(密集與稀疏)、不同語境特徵(詞、ngram、字等)與多種語料訓練的向量,使用者可依需求取得不同性質的預訓練向量。還提供中文類比推理資料集 CA8 以及評測工具,方便比較向量的內在與外在評估結果。
向量檔採文字格式,每行為一個詞與其向量,第一行為 meta 資訊(詞數與維度)。稀疏向量以 liblinear 風格表示,使用 index:value 的格式。專案附上引用文獻與技術報告,並採 Apache-2.0 授權釋出,社群可直接使用於各類下游任務。
參考與格式範例
@InProceedings{P18-2023,
author = "Li, Shen
and Zhao, Zhe
and Hu, Renfen
and Li, Wensi
and Liu, Tao
and Du, Xiaoyong",
title = "Analogical Reasoning on Chinese Morphological and Semantic Relations",
booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
year = "2018",
publisher = "Association for Computational Linguistics",
pages = "138--143",
location = "Melbourne, Australia",
url = "http://aclweb.org/anthology/P18-2023"
}總體而言,Chinese-Word-Vectors 是一個對中文詞向量研究者和實務工程師都具參考價值的資源庫。
延伸閱讀
- Sentence Transformers v5.4 引入多模態嵌入與重排序模型,支援文字、影像、音訊與影片
- PaddleNLP:飛桿平台上的高效能大語言模型與多模態支援
- 使用 Skill 自動將 Transformers 轉換為 MLX‑LM:流程、測試與未來方向
原始來源:GitHub Explorer
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。