機器生成文本檢測

深度分析

面對指令調校的前沿模型，傳統以詞元似然平均化的偵測器效能下降。論文指出隱層空間不同區域具差異統計，平均化造成類似Simpson悖論，提出基於貝氏決策的局部校準：先學習各區域分數分布並校正後再聚合，實驗在多個基準與檢測器上明顯提升AUROC，且對多種平均化流程具模組化適用性。

深度分析

隨著生成式大型語言模型快速普及，分辨機器生成與人類撰寫文本成為學術與實務的核心問題。本文以十五種檢測系統與多種訓練變體，跨七個英語測試集與數個創意人類文本集進行系統性評估，揭示資料組成、訓練域、以及指標選擇如何深刻影響檢測結果。研究發現：沒有單一系統能在所有情境中表現最好；