深度分析 EPO‑Safe:利用二元危險訊號讓凍結權重 LLM 在少樣本下演化出操作性安全規範 在獎勵信號與真實安全目標可能脫鉤的場景,研究提出 EPO‑Safe(Experiential Prompt Optimization for Safe Agents),讓大型語言模型在凍結權重下,透過每步只有一個二元危險警示的極度稀疏回饋,反覆生成計畫、觀察警示、反思並以自然語言演化出可審計的行為規範。