LLM 成為 GPU 核心效能預測代理,大幅提升深度學習核函式搜尋效率
GPU 核心函式的效能測試成本高,研究以大型語言模型作為選擇性 GPU 替代,預測核函式相對表現。實驗顯示 LLM 能準確預測且經強化學習後校準度提升,讓搜尋在相同 GPU 預算下評估更多候選。最終找到的核函式比傳統基線更快,證明 LLM 可成為 GPU 虛擬模型,協助核函式優化。
GPU 核心函式是現代深度學習效能的核心,傳統優化流程必須在實體 GPU 上編譯並多次執行測量,成本相當高。隨著大型語言模型(LLM)在推論成本上的下降,以及 LLM‑驅動的搜尋預算擴大,實機測量成為瓶頸。
LLM 作為選擇性 GPU 替代模型
研究探討 LLM 是否能預測新核函式的效能,作為「選擇性」的 GPU 替代。理想的替代模型需具備兩點:一是預測準確,二是能辨識自身不確定時,將評估交回真實 GPU。
評估指標與實驗設計
研究以三項指標衡量替代模型:預測是否準確、是否具校準性(confidence 與真實誤差匹配),以及在有限 GPU 測量預算下是否能找出更快的核函式。進一步測試強化學習是否能提升 LLM 的預測與校準能力。
實驗結果
結果顯示,LLM 能夠相對準確地預測核函式的效能差異,且透過強化學習後,預測的信心校準度明顯改善。將此 surrogate 置於核函式搜尋流程中,搜尋在相同 GPU 測量預算下能評估數倍的候選,最終找到的核函式效能優於等預算的基線。
意義與未來方向
此研究證明 LLM 不僅能生成核函式,亦可模擬 GPU 行為,成為核函式優化的虛擬模型。未來可進一步擴展至更廣泛的硬體加速器與多樣化的效能指標,提升自動化優化的效率與可擴展性。
延伸閱讀
- PithTrain:以代理人效能為核心的 MoE 訓練框架
- Laguna M.1 與 XS.2:Model Factory 打造的長程 Mixture-of-Experts 程式碼基礎模型
- ZAYA1-8B:以 MoE++、Compressed Convolutional Attention 與 Markovian RSA 提升小參數推理效能
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。