Laguna M.1 與 XS.2:Model Factory 打造的長程 Mixture-of-Experts 程式碼基礎模型
ArXiv發表LagunaM.1與LagunaXS.2,兩款為長程代理式編碼設計的MoE基礎模型。作者說明在稱為ModelFactory的系統中從頭訓練與量化;M.1與XS.2在軟體工程與終端機基準上與同級開源模型相當,XS.2權重已以Apache2.0釋出。
Laguna M.1 與 XS.2:為長程代理式編碼而生
ArXiv 最新論文提出兩款以 Mixture-of-Experts 為架構的基礎模型:Laguna M.1 與 Laguna XS.2,定位為長時間跨度且具代理行為的程式碼生成與操作任務。開頭兩句即點出重點:XS.2 權重已公開釋出。
Model Factory 與訓練流程
開發團隊在一套稱為 Model Factory 的內部系統中,從頭端到端完成訓練作業,該系統整合版本化資料、訓練管線、評估與推論元件,將模型研發工業化。論文同時描述了預訓練資料、架構選擇、後訓練階段與量化程序。
規模與表現
論文指出 M.1 為 225.8B 總參數、每 token 啟動 23.4B;XS.2 為 33.4B 總參數、每 token 啟動 3B。兩款模型在軟體工程與終端機基準(包括多項 SWE-bench 與 Terminal-Bench 測試)上,於各自重量級與現有開源模型展現相近競爭力。
XS.2 權重以 Apache 2.0 授權釋出,取得與下載位於:https://huggingface.co/collections/poolside/laguna-xs2
延伸閱讀
- EngGPT2MoE-16B-A3B:以混合專家架構推進義大利語大型語言模型表現
- ZAYA1-8B:以 MoE++、Compressed Convolutional Attention 與 Markovian RSA 提升小參數推理效能
- ZAYA1-8B:基於 MoE++ 與 Markovian RSA,在 AMD Instinct MI300 上訓練的高效推理模型
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。