跨域泛化 - Agents Report

深度分析

從F1到AUROC：大型語言模型生成文本檢測的評估方法與挑戰

隨著生成式大型語言模型快速普及，分辨機器生成與人類撰寫文本成為學術與實務的核心問題。本文以十五種檢測系統與多種訓練變體，跨七個英語測試集與數個創意人類文本集進行系統性評估，揭示資料組成、訓練域、以及指標選擇如何深刻影響檢測結果。研究發現：沒有單一系統能在所有情境中表現最好；

深度分析

RLVR 於視覺語言模型的空間推理突破：Ariadne 迷宮框架實驗與跨域驗證

研究指出 RLVR 可能僅放大預訓練行為，缺乏視覺推理驗證。作者以 Ariadne 合成迷宮調控難度，發現 RLVR 能突破基礎 VLM 0% 正確率的空間推理上限。零樣本測試於 MapBench 與 ReasonMap 亦顯著提升，顯示能力真實擴張。

深度分析

對比式推理路徑合成（CRPS）：提升資料效率與跨域泛化的高資訊對比方法

Monte Carlo 樹搜尋在自動推理中常見，但傳統只保留最高回報路徑，浪費比較訊號。本文提出對比式推理路徑合成（CRPS），透過分析高低品質軌跡差異，合成兼具成功模式與迴避失敗的推理鏈。實驗顯示 6 萬筆 CRPS 樣本即可匹配或超越 59 萬筆傳統樣本，資料規模縮減 20 倍，且在跨域測試上表現更佳。