稀疏化 - Agents Report | 代理人報告

深度分析

「低幅權重」在大型語言模型稀疏化中的關鍵角色：驗證垃圾 DNA 假說

研究指出，大型語言模型的低幅權重類似基因組中的垃圾DNA，透過權重剪枝量化其重要性，發現這些看似無用的參數對高難度任務至關重要，剪除會造成不可逆的知識遺失。實驗遍及不同模型規模、任務與資料集，使用非結構與 N:M 結構稀疏化均驗證此假說。結果顯示，對簡單任務可剪除大量小幅權重，然而在高難度任務即使僅削減10%亦會導致顯著性能下降。