深度分析 大型語言模型 LSAT 滿分突破:思考階段與 QLoRA 微調提升邏輯推理表現 研究顯示語言模型首次在 LSAT 正式測驗中取得滿分。透過八種推理模型的對照實驗,發現思考階段的缺失會削弱正確率,尤其在邏輯推理上下降 8%。微調獎勵模型結合 Best‑of‑5 選擇,可縮小與最佳表現的差距,突顯 AI 已突破法律測驗的人類專屬門檻。