泛化 - Agents Report | 代理人報告

深度分析

二次神經網路寬度與樣本數的縮放律：泛化表現的理論解析

本研究探討二層二次神經網路在有限樣本與結構化資料下，寬度與樣本數如何共同決定泛化誤差。以 ℓ₂ 正則化的經驗風險最小化為基礎，揭示了依目標譜結構的資料依賴性冪律，並描繪出不同寬度下的相變與插值峰。研究亦指出最佳寬度的選取規則，使測試誤差達到貝葉斯最佳率。

速報

模型規範中期訓練（MSM）：用規範文件引導模型泛化

前沿人工智慧團隊以「模型規範」設定語言模型期望行為。本研究提出模型規範中期訓練（MSM）：在預訓練後、微調前以合成文件教授規範內容，塑造模型從示範資料的泛化方向。應用於自我保存與目標護衛規範時，Qwen3-32B的代理性錯誤率由54%降至7%，優於一項推理式基準14%。

速報

Transformer在布林函數上的泛化：傅立葉頻譜與PAC-Bayes的低銳利度路徑

研究從傅立葉頻譜角度切入transformer在布林任務的泛化，採用PAC-Bayes方法指出若目標函數頻譜稀疏且集中於低階成分，可構造低銳利度和平坦極小值，並對理想化學習者套用PAC-Bayes界獲得非虛無的泛化界；實驗與機械可解釋性分析支援此理論構想。

深度分析

AI代理人自動化對齊的風險：如何導致誤導性整體安全評估（OSA）

該論文討論以AI代理人自動化進行對超級人工智慧的對齊研究之風險。作者指出對齊研究包含難以監督的模糊任務，像是透過代理人評估對齊代理的誠實性、實驗代表性與證據相關性。這些代理可能產生系統性且難以偵測的錯誤，進而讓整體安全評估誤判。結果暗示在沒有可擴展監督或可靠泛化保證前，全面自動化對齊研究可能帶來災難性後果。

深度分析

人工智慧代理人自動化對齊的風險：模糊任務、泛化與可擴展監督挑戰

研究警告：用人工智慧代替人類做對齊研究，會在難以監督的模糊任務中產生系統性未偵測錯誤。論文指出代理人錯誤集中、人為難以察覺且證據相關性易被誤估，可能導致誤判安全性並意外部署不對齊系統。它強調證據匯總與泛化挑戰，像是代理人生成的錯誤型態異於人類，增大整體評估的過度自信風險。