速報 IPR:評估大型語言模型跨提示可靠性的框架 研究指出大型語言模型在社會科學標註上受提示措辭影響。本文提出Inter-Prompt Reliability(IPR)框架,透過成對一致率(PAR)衡量跨同義提示的輸出穩定性。結果顯示詮釋性任務變異較大,知識性任務較穩定,多提示多數決可提高重現性。