LLM 後訓練

深度分析

本篇教學以輕量模型示範四種後訓練方法：監督微調、獎勵建模、直接偏好優化與群組相對策略，並透過LoRA在ColabT4上完成。結果顯示即使硬體受限，也能提升模型對數學推理與回應品質。同時比較了傳統參數放大與LoRA高效微調的成本差異，指出此路線可降低部署門檻，促進開源社群與企業快速驗證對齊策略。

深度分析

隨著大型語言模型推論需求提升，研究者提出後訓練N:M激活稀疏化技術，透過8:16等半結構化模式搭配輕量誤差緩解方法，實驗顯示在相同稀疏率下保留生成能力優於傳統權重稀疏，並為未來硬體支援多樣稀疏模式奠基。此研究亦比較了多種剪枝指標與轉換技巧，證明簡易的動態位移與方差校正可顯著降低性能損失。