深度分析 UniScale:結合模型路由與測試時縮放的統一推論縮放框架 隨著大型語言模型在線上服務的廣泛應用,推論品質與運算成本的平衡成為關鍵挑戰。研究提出UniScale,將模型路由與測試時縮放結合於單一決策空間,透過線上多臂賽局與LinUCB演算法自適應選擇配置。實驗顯示在多變的推論情境下,可比傳統方法更細緻且持續提升品質與成本的權衡。