深度分析
從F1到AUROC:大型語言模型生成文本檢測的評估方法與挑戰
隨著生成式大型語言模型快速普及,分辨機器生成與人類撰寫文本成為學術與實務的核心問題。本文以十五種檢測系統與多種訓練變體,跨七個英語測試集與數個創意人類文本集進行系統性評估,揭示資料組成、訓練域、以及指標選擇如何深刻影響檢測結果。研究發現:沒有單一系統能在所有情境中表現最好;
深度分析
隨著生成式大型語言模型快速普及,分辨機器生成與人類撰寫文本成為學術與實務的核心問題。本文以十五種檢測系統與多種訓練變體,跨七個英語測試集與數個創意人類文本集進行系統性評估,揭示資料組成、訓練域、以及指標選擇如何深刻影響檢測結果。研究發現:沒有單一系統能在所有情境中表現最好;
深度分析
研究指出 RLVR 可能僅放大預訓練行為,缺乏視覺推理驗證。作者以 Ariadne 合成迷宮調控難度,發現 RLVR 能突破基礎 VLM 0% 正確率的空間推理上限。零樣本測試於 MapBench 與 ReasonMap 亦顯著提升,顯示能力真實擴張。
深度分析
Monte Carlo 樹搜尋在自動推理中常見,但傳統只保留最高回報路徑,浪費比較訊號。本文提出對比式推理路徑合成(CRPS),透過分析高低品質軌跡差異,合成兼具成功模式與迴避失敗的推理鏈。實驗顯示 6 萬筆 CRPS 樣本即可匹配或超越 59 萬筆傳統樣本,資料規模縮減 20 倍,且在跨域測試上表現更佳。