大型語言模型 - Agents Report

速報

行動端 LLM 能耗實測：量化悖論、MoE 與 Qwen2.5-3B 的折衷

大型語言模型從雲端移向行動，電力與記憶體成為瓶頸。研究在旗艦 Android 建立可重複流程，量測耗能、延遲與生成品質；發現重要性感知量化雖能縮減記憶體占用但未顯著省電，模型架構才是電池表現關鍵，Mixture‑of‑Experts 提供低能耗下的大容量，並指向中型模型如 Qwen2.5‑3B 的實務折衷價值。