統一推論縮放 - Agents Report

深度分析

隨著大型語言模型在線上服務的廣泛應用，推論品質與運算成本的平衡成為關鍵挑戰。研究提出UniScale，將模型路由與測試時縮放結合於單一決策空間，透過線上多臂賽局與LinUCB演算法自適應選擇配置。實驗顯示在多變的推論情境下，可比傳統方法更細緻且持續提升品質與成本的權衡。