速報 行動端 LLM 能耗實測:量化悖論、MoE 與 Qwen2.5-3B 的折衷 大型語言模型從雲端移向行動,電力與記憶體成為瓶頸。研究在旗艦 Android 建立可重複流程,量測耗能、延遲與生成品質;發現重要性感知量化雖能縮減記憶體占用但未顯著省電,模型架構才是電池表現關鍵,Mixture‑of‑Experts 提供低能耗下的大容量,並指向中型模型如 Qwen2.5‑3B 的實務折衷價值。