深度分析
Mellum2:JetBrains 12B 參數 Mixture‑of‑Experts 模型,提升文字與程式碼推論速度
JetBrains 於 2026 年 6 月發表 Mellum2,這是一款 12 億參數的 Mixture-of-Experts(MoE)模型,專為文字與程式碼工作負載設計。模型在每個 token 只激活約 2.5 億參數,實現超過同規模開源模型兩倍的推理速度,適用於路由、RAG、子代理與私有部署等高頻 AI 任務。
深度分析
JetBrains 於 2026 年 6 月發表 Mellum2,這是一款 12 億參數的 Mixture-of-Experts(MoE)模型,專為文字與程式碼工作負載設計。模型在每個 token 只激活約 2.5 億參數,實現超過同規模開源模型兩倍的推理速度,適用於路由、RAG、子代理與私有部署等高頻 AI 任務。
深度分析
Meta推出AI客服聊天機器人被駭客利用,指令更換目標帳號電郵並重設密碼,駭客甚至使用VPN偽裝位置攻擊單字母或單詞帳號,導致名人、官方與安全研究員帳號被盜。該漏洞於2026年6月被發現,與奧巴馬白宮帳號被入侵時間相近。Meta已緊急修補漏洞並加強受影響帳號安全。
深度分析
Google於I/O 2026推出Gemini Spark AI 代理人,可在背景自動完成多步驟任務,如撰寫郵件與建立行事曆。測試顯示其能自行搜尋資料並產出草稿,但仍需使用者逐項驗證。高達每月百美元的訂閱費與資料隱私疑慮,使其實用性受限。此外,若未開啟個人智慧功能,Spark的表現會大幅退化。
深度分析
研究指出,自回歸影像生成在重建與生成間有落差,提出僅用AR損失訓練的前置代碼Prologue,將生成代碼前置於視覺代碼,成功降低gFID逾四成且保留重建品質,展示以獨立生成表示提升AR效能的新方向。在ImageNet 256×256測試中,Prologue‑Base將gFID從21.01降至10.75。
深度分析
本研究聚焦於車載多變量時間序列的協調異常,提出 AxonAD 以注意力查詢的短期可預測性作為偵測依據,結合重建誤差與尾部查詢偏差得分。查詢不匹配得分能捕捉跨通道協調斷裂,即使各通道幅度正常,也提供額外訊號;相較於 LSTMAD、SISVAE 等模型,AxonAD 在 AUC‑PR、Event‑F1 與 Range‑F1 等閾值自由指標上均領先。
速報
研究團隊提出 DTBench,一套以逆向 Table2Doc 流程自動生成文件的合成基準,針對文件轉表格(Doc2Table)任務建立兩層能力分類,涵蓋 5 大類 13 小類。實驗顯示主流大型語言模型在推理、忠實度與衝突解決上仍有明顯差距,凸顯此領域的挑戰與研究空間。
深度分析
研究聚焦於如何將真實 GitHub Pull Request 轉換為可驗證的搜尋/取代編輯訊號,提出 Clean-PR 中介訓練流程,並以 Search/Replace 區塊取代傳統 Diff。實驗顯示,於 SWE‑bench Lite 與 Verified 上分別提升 13.6% 與 12.3%,證明模型可在無代理架構下內化倉庫編輯能力。
深度分析
本研究針對在一般李群上出現的未知資料變換反轉問題,提出轉換反轉能量擴散(TIED)方法。透過在李代數上進行的擴散抽樣,保持所有更新於流形上,並以能量函數建模變換後驗後分布。實驗以影像同倫與偏微分方程對稱性為測試場景,證明 TIED 能在測試時將變換後的輸入恢復至訓練分布,提升預訓練網路的準確度與穩定性,超越傳統正規化與抽樣基線。
速報
儲備運算(Reservoir Computing)在時間序列處理上表現優異,但因必須串行處理與高維儲備的記憶需求,難以大規模應用。
深度分析
研究提出MaskCaptioner,利用先進視覺語言模型自動產生影片中每個物件的遮罩與文字敘述,並以LVISCap與LV‑VISCap兩套合成資料集進行端到端訓練,於VidSTG、VLN與BenSMOT三大基準創下最新成績,顯示合成標註可提升密集影片敘述效能。
速報
本研究探討深度神經網路在持續學習情境下為何會失去塑性,導致無法在不重新初始化參數的情況下學習新任務。作者發現,新任務初始化時會出現Hessian頻譜崩潰,意味著有意義的曲率方向消失,梯度下降失效。
深度分析
Anthropic公布Claude在瀏覽器環境的提示注入成功率31.5%,但啟用防護後降至0.5%;相較於OpenAI、Google、Meta缺乏同類數據,凸顯業界缺乏統一測量標準,企業需自行評估與測試。文章同時比較四大廠商的測試範圍與公開深度,並提出實務建議。