深度分析 PERSA:以 RLHF 結合層級 LoRA 將 LLM 調校為教授風格回饋 大型語言模型在教育回饋上有潛力但風格對齊不足。PERSA採RLHF與層級選擇性LoRA微調,僅更新高層適配器以保留核心能力並強化教授語氣與結構表現。實驗顯示在程式碼回饋上達到高風格對齊且維持正確性,為個人化AI助教提供可行路徑。此方法兼顧內容與語氣的同步調校。