速報 EngGPT2MoE-16B-A3B:以混合專家架構推進義大利語大型語言模型表現 報告評估義大利ENGINEERING的EngGPT2MoE-16B-A3B,為16B參數MoE且在任意時刻啟用3B活躍參數。研究以多項國際與義大利基準比較模型表現,結果顯示該模型在多數國際測試優於或等同主要義大利模型,且在RULER32k長上下文設定取得最佳成績。