深度分析 GeoMin:利用幾何先驗提升半監督 RLVR 在 LLM 推理中的資料效率 在大規模語言模型推理中,驗證型獎勵學習受限於標註成本。GeoMin 透過在標記資料上建模正確與錯誤推理的全域方向分布,利用 von Mises‑Fisher 與高斯混合模型評估未標記樣本的幾何信心分數,從而精準挑選自我獎勵信號。實驗顯示僅使用10%標註即超越全監督基線,提升約4%效能,顯示資料效率顯著提升。