深度分析 以隨機對照試驗(RCT)評估人工智慧對人類績效:五大原則與三十三項指引 面對人工智慧評估與研究信度危機,作者提出以隨機對照試驗為核心、結合五項原則與三十三條指引,強調以人類績效為終點、落實因果推論與透明可重複性,並針對模型版本管理、使用者互動、干擾或外溢效果與公平性評估,提供實作指引以提升結果的可比較性與政策可用性。