深度分析 大型語言模型(LLM)機率抽樣評估:Wasserstein 檢驗揭示批次與獨立請求差異 本研究針對大型語言模型(LLM)在指定機率分布下的原生取樣能力,做出大規模的統計性稽核。作者以11款前沿模型、15種分布、每組N=1000樣本,比較「批次生成(Batch)」與「獨立請求(Independent)」兩種協議,並用Wasserstein距離與常見統計檢定評估分布擬合度。