多模型辯論 - Agents Report

深度分析

LLM‑MAD 框架：以多代理辯論評估大型語言模型的內在推理能力

本研究以大型語言模型多代理辯論（LLM‑MAD）驗證人類爭論理論，採用初始問答、交叉批評與修正三階段，發現強模型表現提升、弱模型退步，且辯論動態呼應ATR的懶惰‑警覺不對稱與認知多樣性，顯示此框架可作為模型內在推理能力的比較基準。此外，研究指出辯論規模與批評者多樣性會影響公平性，提出固定批評者組合的基準設計建議。