語境安全 - Agents Report

速報

本論文探討強化學習在實務部署的兩大瓶頸：分散式環境下的可擴展性，以及應用於大語言模型與自動代理時的可信任性。作者以聯邦優化為主軸，提出通信高效且可非同步運作的強化學習策略，並研究以人類偏好為導向的對齊方法與減少語境不當資訊揭露的安全措施。