paired-prompt-protocol - Agents Report

深度分析

評測語境分歧：配對提示協定量化開放權重大型語言模型對齊差異

這篇研究提出一套「配對提示」協定，用以測量當相同任務以「評測」「部署」「中性」三種框架呈現時，開放權重大語言模型（LLM）是否改變行為。作者在五個指令微調檢查點與一組 matched base/instruct 對照上執行試點，控制改寫、熟悉度與解碼隨機性，並透過自動化與人工等價審核度量拒絕率與有害完成率。