層級微調 - Agents Report

深度分析

大型語言模型在教育回饋上有潛力但風格對齊不足。PERSA採RLHF與層級選擇性LoRA微調，僅更新高層適配器以保留核心能力並強化教授語氣與結構表現。實驗顯示在程式碼回饋上達到高風格對齊且維持正確性，為個人化AI助教提供可行路徑。此方法兼顧內容與語氣的同步調校。