程式除錯教學 - Agents Report

深度分析

本研究針對程式教育中的學生行為模擬，提出將真實的程式提交與測試回饋序列化為對話式資料，以訓練開放權重的程式學習者模型。方法結合監督式微調與偏好最佳化，使 4B/8B Qwen 模型在模擬除錯行為上優於僅程式碼或大型封閉模型的基線，提升功能對齊與程式碼相似度。