深度分析
LAPITHS 框架檢視 Centaur(Llama 3.1 70B + QLoRA)之認知機制與行為相似性
近年大型語言模型被宣稱可模擬人類認知,本文提出 LAPITHS 框架,結合最小認知格線與行為比較,發現未經特化訓練的模型亦能在兩步任務上匹配 CENTAUR,且神經對齊可由非專屬模型復現,因此,研究呼籲在評估 AI 認知聲稱時,必須加入結構性檢驗與理論嚴謹性。
深度分析
近年大型語言模型被宣稱可模擬人類認知,本文提出 LAPITHS 框架,結合最小認知格線與行為比較,發現未經特化訓練的模型亦能在兩步任務上匹配 CENTAUR,且神經對齊可由非專屬模型復現,因此,研究呼籲在評估 AI 認知聲稱時,必須加入結構性檢驗與理論嚴謹性。
深度分析
研究顯示語言模型首次在 LSAT 正式測驗中取得滿分。透過八種推理模型的對照實驗,發現思考階段的缺失會削弱正確率,尤其在邏輯推理上下降 8%。微調獎勵模型結合 Best‑of‑5 選擇,可縮小與最佳表現的差距,突顯 AI 已突破法律測驗的人類專屬門檻。