LoKA - Agents Report | 代理人報告

速報

GPU近年透過FP8提升運算，但大型推薦模型(LRM)因數值敏感難以直接套用。研究提出LoKA框架，包括Probe線上量測層級統計、Mods調整模型以增穩定性、及Dispatch於執行時選最快合格FP8內核。實驗顯示LoKA能在維持準確度下使LRM更實務化。