AUROC - Agents Report | 代理人報告

深度分析

隨著生成式大型語言模型快速普及，分辨機器生成與人類撰寫文本成為學術與實務的核心問題。本文以十五種檢測系統與多種訓練變體，跨七個英語測試集與數個創意人類文本集進行系統性評估，揭示資料組成、訓練域、以及指標選擇如何深刻影響檢測結果。研究發現：沒有單一系統能在所有情境中表現最好；