百分位交叉熵 - Agents Report

深度分析

研究指出平均交叉熵常被少數高損失樣本拉高，可能無法反映下游任務品質；研究以微調與Top-K蒸餾實驗比較平均值與中位數與其他分位數，發現中位數更貼近任務表現，建議驗證時同時回報分位數以偵測分布重塑。這對模型選擇和小模型蒸餾策略有實務意義。可用作低成本診斷。