大型語言模型 - Agents Report

速報

研究指出大型語言模型在社會科學標註上受提示措辭影響。本文提出Inter-Prompt Reliability(IPR)框架，透過成對一致率(PAR)衡量跨同義提示的輸出穩定性。結果顯示詮釋性任務變異較大，知識性任務較穩定，多提示多數決可提高重現性。