自然語言規範 - Agents Report

深度分析

EPO‑Safe：利用二元危險訊號讓凍結權重 LLM 在少樣本下演化出操作性安全規範

在獎勵信號與真實安全目標可能脫鉤的場景，研究提出 EPO‑Safe（Experiential Prompt Optimization for Safe Agents），讓大型語言模型在凍結權重下，透過每步只有一個二元危險警示的極度稀疏回饋，反覆生成計畫、觀察警示、反思並以自然語言演化出可審計的行為規範。