行動端 LLM 能耗實測:量化悖論、MoE 與 Qwen2.5-3B 的折衷
大型語言模型從雲端移向行動,電力與記憶體成為瓶頸。研究在旗艦 Android 建立可重複流程,量測耗能、延遲與生成品質;發現重要性感知量化雖能縮減記憶體占用但未顯著省電,模型架構才是電池表現關鍵,Mixture‑of‑Experts 提供低能耗下的大容量,並指向中型模型如 Qwen2.5‑3B 的實務折衷價值。
行動端實測:記憶體與電力成為 LLM 推論主題
大型語言模型遷移到行動裝置,能提升隱私與離線可用性,但受限於電池、熱設計與記憶體。研究團隊建立一套可重複、可複製的實驗流程,在旗艦 Android 裝置上量測八款模型的耗能、延遲與生成品質,且不需 root 權限,反映真實使用情境。
實驗揭示多重取捨:重要性感知量化可顯著縮減記憶體占用,讓較大模型能塞進行動 RAM,但在能耗面卻未帶來明顯優勢,相較之下,採用的模型架構對電池壽命影響更大。
特別地,Mixture‑of‑Experts(MoE)架構違反一般「模型越大越耗能」的趨勢,能提供接近大模型的存量,同時維持類似小型模型的能耗水準。整體多目標分析指出,中型模型(如 Qwen2.5‑3B)在回應品質與可持續能耗間,展示務實的折衷選擇。
對想在行動端部署大型語言模型的團隊,研究強調:除了壓縮與量化技術外,選擇合適的模型架構與中等規模模型,可能比單純追求最高參數量更有利於實際電力與體驗平衡。
延伸閱讀
- OpenJarvis:以五大原語與 LLM-guided spec search 實現本地化個人AI優化
- CFQ:保護反事實可行性的量化訓練新法
- TensorRT 優化 YOLO 在 Jetson Nano 的硬體可靠性實測
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。