人工智慧評估 - Agents Report

速報

不少人工智慧評估只在實驗室測試，難以反映低資源環境的真實表現。本研究主張把「部署系統」而非單一模型作為評估單位，並整合雜訊輸入、語碼混用、斷線、低端硬體與領域轉移等部署條件。提出共享報告框架，強調可比較且具部署敏感性的報告格式。並建議提供簡潔一頁基準卡與部署檔案以利決策。

大型語言模型 (LLM)

一項以Dimensions資料庫為基礎的研究發現，量化學術論文中人工智慧（AI）使用時，若採用混合（pooled）基準，容易將既有寫作風格差異誤認為AI痕跡。研究以人類撰寫與由大型語言模型（LLM）改寫的摘要差異建立AI相似度指標，並比較整體混合基準與按國家與領域分組的基準。

深度分析

面對人工智慧評估與研究信度危機，作者提出以隨機對照試驗為核心、結合五項原則與三十三條指引，強調以人類績效為終點、落實因果推論與透明可重複性，並針對模型版本管理、使用者互動、干擾或外溢效果與公平性評估，提供實作指引以提升結果的可比較性與政策可用性。