深度分析
Moonwalk:在可逆網路上以逆雅可比實現向前微分的記憶優化
深度學習訓練通常受限於反向傳播的高記憶需求。本文提出一套以向前模式為基礎的技術,採用向量-逆雅可比乘積在可逆網路上先求輸入梯度,接著前向累積計算參數梯度,從而保留真實梯度同時降低記憶使用。實驗顯示此法在時間效率接近反向傳播的情況下,能明顯縮減記憶占用並適用於多種架構。
深度分析
深度學習訓練通常受限於反向傳播的高記憶需求。本文提出一套以向前模式為基礎的技術,採用向量-逆雅可比乘積在可逆網路上先求輸入梯度,接著前向累積計算參數梯度,從而保留真實梯度同時降低記憶使用。實驗顯示此法在時間效率接近反向傳播的情況下,能明顯縮減記憶占用並適用於多種架構。
everything-claude-code
Everything Claude Code 是一個起源於 Anthropic 黑客松、由社群驅動的開源專案,定位為代理人執行與效能最佳化系統。專案整合技能(skills)、直覺(instincts)、記憶優化、持續學習與安全掃描,並提供生產導向的設定、hooks 與擴充範例,旨在把研究導向的開發流程帶入實務產品。