概念性可重現性 - Agents Report

深度分析

機器學習在基準評測上長期面臨可重現性困境。Croissant Tasks採宣告式、機器可執行的元資料格式，將任務與解法分離並描述輸入、輸出、評估與執行細節；實驗顯示可由語言模型自動抽取規格並由代理人生成可運行的重現管線，提升概念性可重現性影響。