multi-agent-LLM - Agents Report

深度分析

本文提出BiCICLe，一套不需微調模型的雙臂In-Context Learning框架。透過領導—跟隨的多代理設計，將雙手動作分解為條件化的單臂序列預測，並以Arms’ Debate多輪精修與Best-of-N LLM評審抑制採樣隨機性。