深度分析
Trainee‑Bench:評估多模態大型語言模型在動態職場中的探索與持續學習能力
隨著多模態大型語言模型快速發展,研究多聚焦於靜態環境的效能上限,卻忽視真實職場的動態任務排程、主動探索與持續學習需求。作者提出 Trainee‑Bench,評測代理人在流式任務、資訊隱蔽與規則生成情境下的表現,實驗顯示現有 SOTA 代理人在探索與持續學習上仍有顯著缺口。
深度分析
隨著多模態大型語言模型快速發展,研究多聚焦於靜態環境的效能上限,卻忽視真實職場的動態任務排程、主動探索與持續學習需求。作者提出 Trainee‑Bench,評測代理人在流式任務、資訊隱蔽與規則生成情境下的表現,實驗顯示現有 SOTA 代理人在探索與持續學習上仍有顯著缺口。
深度分析
隨著GDPR要求資料刪除,機器去學習成關鍵。研究提出Purge利用A‑GEM梯度投影,結合多層表示抹除與retain‑confusion目標,確保不提升保留損失。實驗在五個資料集上,保留精度維持96%以上,且會員推斷AUROC接近0.5,優於現有基線。
深度分析
隨著串流資料即時處理,傳統RNN與Transformer受限於回傳時間與窗口長度。研究提出SHARP框架,透過睡眠階段的加速回放將記憶層級化,顯著提升長程依賴保持與預測表現。在text8與PG-19基準測試中,SHARP相較於傳統遞迴模型在前向與回溯BPC上均有明顯下降,證明其有效延伸有效上下文窗。
速報
本研究探討深度神經網路在持續學習情境下為何會失去塑性,導致無法在不重新初始化參數的情況下學習新任務。作者發現,新任務初始化時會出現Hessian頻譜崩潰,意味著有意義的曲率方向消失,梯度下降失效。
深度分析
傳統深度模型在持續學習時常出現遺忘問題,同時對抗式擾動也能輕易改變預測,兩者缺一不可的防護需求長期未被同時解決。研究者提出 SHIELD,利用超網路產生任務專屬的權重向量,並將目標模型的輸入以區間形式傳遞,藉由區間立方體保證在指定範圍內的所有樣本皆得到相同預測,從而同時抑制遺忘與提升對抗魯棒性。
深度分析
城市交通預測長期受限於固定感測網路。EvoXXLTraffic將XXLTraffic重組為逐年演化的感測器集合、年度流量矩陣與圖結構快照,並提出以年為單位的串流預測協議。基準測試發現多數現行頂尖模型在演化資料上表現退化,且冷啟動感測器成為主要瓶頸。
深度分析
為即時 AR/VR 與機器人應用,系統需在裝置端邊學習新的人類動作且不遺忘既有類別。CLANE 在 Intel Loihi 2 上結合事件相機、脈衝卷積網路與擴展 CLP-SNN,並以時間聚合與定點正規化處理動作片段。整合式部署在晶片上完成推論與在線增量學習。於 THU E‑ACT‑50 評估顯示,在僅小幅準確度下降下,實現顯著能耗與延遲改善。
深度分析
持續學習面臨模型在新任務後的logit變動與穩定性抉擇。本文提出架構驅動轉移(ADS),將logit變動分解為架構依賴與資料依賴,利用層寬深度與少量校準樣本估算ADS並預測傾向。實驗顯示ADS與logit變動及校準誤差呈強相關,可作為輕量模型選擇代理。
深度分析
一群來自DeepMind、Apple、OpenAI等研究者成立Trajectory,欲打造能從真實使用互動持續學習的平台。以開源模型為基礎、用產品交互資料定期後訓練,已在客服與程式碼工具展現成效,未來將改變企業部署與工程需求。創投投入與多位知名研究者參與提升關注度。
深度分析
本研究針對類別增量學習的特徵擴張衝突問題,提出以必要性與充分性機率(CPNS)為基礎的正則化方法,透過雙域反事實生成器同時減少任務內與任務間的虛假相關,提升特徵的因果完整性與可分離性。實驗顯示在多項基線上加入CPNS後,準確率提升約2%至3%。
大型語言模型
Awesome-AI-Memory 是一個以 Apache‑2.0 授權釋出的開源資源庫,專門彙整與大型語言模型(LLM)記憶相關的最新研究、工具與實作案例。隨著 LLM 受限於上下文窗口長度,外部持久記憶成為突破短期記憶瓶頸的關鍵技術。
深度分析
近年 AI 快速發展,但架構單一、與生物智能脫節,造成無法可靠操作實體世界、學習脆弱且耗能高等限制。基於 2025 年 NSF 召集的工作坊,研究提出五大神經科學原則:身體與控制器共設計、透過互動進行預測、多尺度記憶與神經調控、階層分布式架構、以及稀疏事件驅動計算。