大型語言模型 SciPredict:大型語言模型能預測自然科學實驗結果的能力分析 研究者建立 SciPredict 基準以評估大型語言模型在自然科學實驗結果預測上的表現。測試 405 筆來自物理、生物與化學的任務,模型正確率僅 14%~26%,低於可靠指導需求。人類專家在可預測情境下正確率可達 80%,顯示模型仍缺乏可信度判斷能力。