多語言模型 - Agents Report

深度分析

NVIDIA 於 2026 年推出 Nemotron 3.5 內容安全模型，結合多模態輸入與多語言支援，並可依企業自訂政策進行審核。模型同時提供思考模式的推理痕跡，提升決策可審計性。測試顯示其在多語言多模態基準上達到約 85% 的有害內容分類準確度，同時保持低延遲。

深度分析

在記憶與服務資源受限的企業環境中，LuckyStar 111B 透過前置詞條切換提供推理與非推理模式，結合多語言微調、可驗證獎勵強化工具使用，並以4位元量化支援單卡部署。實驗顯示其在數學推理、函式呼叫與NL2SQL任務上超越基礎模型，且保持韓英指令遵循品質。

深度分析

本研究針對少樣本 In-Context Learning（ICL）在跨語言情境下的來源語言選擇進行系統性實驗，涵蓋七項任務、六種大型語言模型以及十八種語言。結果顯示，傳統上認為的語言相似度與高資源語言（如英語）並非最佳來源；相反，低資源、非拉丁文字的語言往往能提供更佳的跨語言傳遞效能。

深度分析

OpenAI 推出的 o1 系列以鏈式思考強化推理與安全，透過「深思對齊」訓練模型先自行審核安全規範，再給予回應，測試顯示在禁用內容與越權拒絕上優於 GPT‑4o，然而更高的推理能力亦帶來中等風險的說服與化學、生物危害潛在威脅。此外，多語言測試亦優於同代模型。

深度分析

大型語言模型因英語資料占比過高，致歐洲多數語言表現不足。TildeOpen LLM 以30億參數、34種語言，採用資料上採樣與課程式訓練交替方式，平衡語言曝光。實驗顯示在多項基準上，尤其波羅的海、芬蘭-烏戈爾及斯拉夫語系，生成與理解能力優於同規模開源模型，語言錯誤率降低逾十倍。