速報
人工智慧評估在低資源環境的盲點:從模型到部署的重新衡量
不少人工智慧評估只在實驗室測試,難以反映低資源環境的真實表現。本研究主張把「部署系統」而非單一模型作為評估單位,並整合雜訊輸入、語碼混用、斷線、低端硬體與領域轉移等部署條件。提出共享報告框架,強調可比較且具部署敏感性的報告格式。並建議提供簡潔一頁基準卡與部署檔案以利決策。
速報
不少人工智慧評估只在實驗室測試,難以反映低資源環境的真實表現。本研究主張把「部署系統」而非單一模型作為評估單位,並整合雜訊輸入、語碼混用、斷線、低端硬體與領域轉移等部署條件。提出共享報告框架,強調可比較且具部署敏感性的報告格式。並建議提供簡潔一頁基準卡與部署檔案以利決策。
大型語言模型 (LLM)
一項以Dimensions資料庫為基礎的研究發現,量化學術論文中人工智慧(AI)使用時,若採用混合(pooled)基準,容易將既有寫作風格差異誤認為AI痕跡。研究以人類撰寫與由大型語言模型(LLM)改寫的摘要差異建立AI相似度指標,並比較整體混合基準與按國家與領域分組的基準。
深度分析
面對人工智慧評估與研究信度危機,作者提出以隨機對照試驗為核心、結合五項原則與三十三條指引,強調以人類績效為終點、落實因果推論與透明可重複性,並針對模型版本管理、使用者互動、干擾或外溢效果與公平性評估,提供實作指引以提升結果的可比較性與政策可用性。