FOLIO - Agents Report | 代理人報告

深度分析

本研究檢視FOLIO與MALLS基準，發現約39%與36%標註錯誤，並提出LLM輔助審核框架，使人工校正僅需檢視24%與13%資料即可達90%正確率，修正後三款主流LLM在測試上提升9至22個百分點，顯示資料品質對神經符號AI評估關鍵與未來發展有關。