法律人工智慧 - Agents Report

深度分析

研究顯示語言模型首次在 LSAT 正式測驗中取得滿分。透過八種推理模型的對照實驗，發現思考階段的缺失會削弱正確率，尤其在邏輯推理上下降 8%。微調獎勵模型結合 Best‑of‑5 選擇，可縮小與最佳表現的差距，突顯 AI 已突破法律測驗的人類專屬門檻。