深度分析 LLM‑MAD 框架:以多代理辯論評估大型語言模型的內在推理能力 本研究以大型語言模型多代理辯論(LLM‑MAD)驗證人類爭論理論,採用初始問答、交叉批評與修正三階段,發現強模型表現提升、弱模型退步,且辯論動態呼應ATR的懶惰‑警覺不對稱與認知多樣性,顯示此框架可作為模型內在推理能力的比較基準。此外,研究指出辯論規模與批評者多樣性會影響公平性,提出固定批評者組合的基準設計建議。