半監督強化學習 - Agents Report

深度分析

GeoMin：利用幾何先驗提升半監督 RLVR 在 LLM 推理中的資料效率

在大規模語言模型推理中，驗證型獎勵學習受限於標註成本。GeoMin 透過在標記資料上建模正確與錯誤推理的全域方向分布，利用 von Mises‑Fisher 與高斯混合模型評估未標記樣本的幾何信心分數，從而精準挑選自我獎勵信號。實驗顯示僅使用10%標註即超越全監督基線，提升約4%效能，顯示資料效率顯著提升。