監督微調 - Agents Report

深度分析

本報導改寫自一篇針對 PiSAR 屏幕條件化行為理據資料集的實驗報告。作者在 661 行留置測試上，對比前沿零樣本基線（Claude Opus、GPT-5.5）與受監督微調（managed LoRA）後的小型視覺語言基底（Qwen3‑VL‑8B‑Instruct）。