大型語言模型 - Agents Report

深度分析

研究針對大型語言模型的推理與答案正確性提出 Novel Operator Test，使用全新名稱的布林運算子測試推理真實性。結果顯示模型在深度 7 仍可完整推理卻給出錯誤答案，揭露推理與輸出之間的斷層。此測驗為評估 LLM 邏輯能力提供新視角。