Gemma 3 4B - Agents Report | 代理人報告

深度分析

研究聚焦小型指令微調大型語言模型的口頭信心問題，透過去除模態過濾器的自信度條件微調，將多樣本自洽訊號壓縮為二元口語判讀，於 TriviaQA 取得 AUROC2 0.774，並在 MMLU 上提升正確率至 77.4%。此結果顯示訓練需保留低信心樣本以避免標籤熵崩潰。