對抗提示 - Agents Report

深度分析

A* 靈感多代理框架結合語意散佈係數與階層式改寫，提升 LLM 常識對抗測試效能

大型語言模型在安全關鍵領域仍易受提示層面的對抗攻擊。本研究提出以A*搜索概念為基礎的多代理語意散佈係數γ引導的提示重寫框架，能在較少嘗試下提升常識錯誤誘發率，並透過機制標籤增進可解釋性。實驗證明其效能優於傳統隨機搜尋。相較於記憶受限的GONDOR搜尋，此框架在語意空間的適應性調整上更聚焦於降低語意塌縮風險。