SciPredict 基準 - Agents Report

大型語言模型

研究者建立 SciPredict 基準以評估大型語言模型在自然科學實驗結果預測上的表現。測試 405 筆來自物理、生物與化學的任務，模型正確率僅 14%~26%，低於可靠指導需求。人類專家在可預測情境下正確率可達 80%，顯示模型仍缺乏可信度判斷能力。