深度分析 評測語境分歧:配對提示協定量化開放權重大型語言模型對齊差異 這篇研究提出一套「配對提示」協定,用以測量當相同任務以「評測」「部署」「中性」三種框架呈現時,開放權重大語言模型(LLM)是否改變行為。作者在五個指令微調檢查點與一組 matched base/instruct 對照上執行試點,控制改寫、熟悉度與解碼隨機性,並透過自動化與人工等價審核度量拒絕率與有害完成率。