速報
Pause‑and‑Think‑T:小型視覺語言模型的情境推理突破
近期的視覺語言模型在影片的實體推理、時間一致性與情境規劃上表現不佳。研究團隊推出以推理為核心的訓練資料集 pause‑and‑think‑T,要求模型在產生答案前先暫停、檢視視覺證據並形成簡潔可執行的回應。
速報
近期的視覺語言模型在影片的實體推理、時間一致性與情境規劃上表現不佳。研究團隊推出以推理為核心的訓練資料集 pause‑and‑think‑T,要求模型在產生答案前先暫停、檢視視覺證據並形成簡潔可執行的回應。
速報
研究團隊提出 StressDream,透過優化擴散式影片世界模型的初始噪聲,使想像的未來影像朝向高衝擊但仍合理的結果發展。此方法結合視覺語言模型提供的語意梯度與合理性目標,避免噪聲偏離分佈。實驗以自駕與機械手臂的最先進影片模型驗證,證明可在推論時以文字指定失敗情境,協助更穩健的策略評估與改進,找出可能導致不良結果的動作。
速報
微調雖能讓基礎模型適應特定任務,但常會削弱預訓練時獲得的通用能力。為了同時提升目標任務表現與保留非目標能力,研究團隊提出 Foundation Preserving LoRA(FoLoRA),一種以遺忘懲罰與任務效用為指標的優化方法。
速報
研究指出,LLM 記憶系統在處理隨時間演變的事實時,常因衝突解決不佳而表現不佳。MemoryAgentBench(MAB)以 FactConsolidation 任務測試衝突解決,發現現有系統在單跳與多跳情境下正確率均低於 55%。
速報
研究提出 MOSAIC(Modular Orchestration for Structured Agentic Intelligence and Composition)作為一套結構化的代理式框架,針對自動資料科學的模型選擇與工作流程建構提供記憶化、語意化的支援。
速報
離線強化學習因資料覆蓋不足與模型不確定性面臨挑戰。研究者將貝葉斯強化學習的動態模型視為隨機變數,提出 Posterior Hybrid Bayesian Belief(PhyB),將期望重新表達為動態模型子集合的凸組合,理論證明近似誤差有界。基於 PhyB,開發出具備單調改進保證的迭代正則化策略優化演算法,直至收斂。
速報
大型語言模型正從模型技術轉向系統技術,開發者利用 Codex、Claude Code、AutoGPT 等代理人編寫程式與執行多步驟任務。研究將電腦架構概念映射至模型原生堆疊,提出六層 ICAM 框架,並以機率執行層與決策控制層解釋 LLM 的雙重角色。驗證三大設計法則,指出未來研究方向。
速報
研究指出傳統神經網路在精確數學對稱性上需大量參數且易不穩。團隊提出通用量子轉換器(UQT),利用多量子位的幾何相位與 SU(2) 波干涉,在 5 顆量子位上精確學習模 11 算術與 S4 置換群。實驗顯示 UQT 收斂後具決定性泛化,並在 IBM NISQ 硬體上驗證,可克服自注意力的二次複雜度瓶頸。
速報
研究團隊提出 Consilium Protocol,一套源自拜占庭容錯的架構,讓多模型 AI 在討論時將模型間的分歧視為認知訊號而非錯誤。透過為語言模型分配工程化的認知人格,並引入量化金融的樣本內/樣本外驗證機制,能區分訓練資料的共識與實證結論。
速報
ELSAKKK 開源的 Mnemos-MCP 近期在 GitHub Trending 上快速攀升,吸引開發者注意。這是一套以 Python 撰寫的私有知識伺服器,提供多集合隔離、決定性匯入與本地向量搜尋等功能,讓文件可在本機安全且高效地被索引與查詢。
速報
研究團隊提出 DTBench,一套以逆向 Table2Doc 流程自動生成文件的合成基準,針對文件轉表格(Doc2Table)任務建立兩層能力分類,涵蓋 5 大類 13 小類。實驗顯示主流大型語言模型在推理、忠實度與衝突解決上仍有明顯差距,凸顯此領域的挑戰與研究空間。
速報
儲備運算(Reservoir Computing)在時間序列處理上表現優異,但因必須串行處理與高維儲備的記憶需求,難以大規模應用。