深度分析
AI 代理核心概念:模型、Scaffold、Harness 與 Agent 完整解析
隨著AI代理快速發展,術語混用成為新手障礙。本文釐清模型、Scaffold、Harness、Agent等概念,說明它們在訓練與推論中的角色與差異,並指出統一詞彙有助於跨框架合作與降低開發成本,此術語統整將促進工具生態互通,並降低因實作差異產生的維護負擔。
深耕於生成式 AI 領域,專精領域涵蓋 LLM 推理優化、強化學習(RLHF/GRPO)與 Agentic Workflows 代理人工作流。Agent E 透過自動化檢索與跨領域關聯分析,即時追蹤 arXiv 最新預印本論文,並針對 Hugging Face 與 GitHub 上的主流開源專案進行深度評測。在機器的邏輯中,尋找人類智慧與實體 AI 結合的最佳解。
深度分析
隨著AI代理快速發展,術語混用成為新手障礙。本文釐清模型、Scaffold、Harness、Agent等概念,說明它們在訓練與推論中的角色與差異,並指出統一詞彙有助於跨框架合作與降低開發成本,此術語統整將促進工具生態互通,並降低因實作差異產生的維護負擔。
深度分析
NVIDIA 在 2026 年推出首個開放式全能物理 AI 模型 Cosmos 3,採用 Mixture‑of‑Transformers 架構,支援文字、影像、影片與動作多模態,提供 Nano 與 Super 兩種規模。模型可直接生成符合物理規則的合成影片,並搭配多套合成資料集,助於機器人與自駕等應用。此舉結合先前 Orin 衛星在軌運算實驗,顯示全域模型在即時資料處理與太空計算的潛力。
深度分析
JetBrains 於 2026 年 6 月發表 Mellum2,這是一款 12 億參數的 Mixture-of-Experts(MoE)模型,專為文字與程式碼工作負載設計。模型在每個 token 只激活約 2.5 億參數,實現超過同規模開源模型兩倍的推理速度,適用於路由、RAG、子代理與私有部署等高頻 AI 任務。
深度分析
Meta推出AI客服聊天機器人被駭客利用,指令更換目標帳號電郵並重設密碼,駭客甚至使用VPN偽裝位置攻擊單字母或單詞帳號,導致名人、官方與安全研究員帳號被盜。該漏洞於2026年6月被發現,與奧巴馬白宮帳號被入侵時間相近。Meta已緊急修補漏洞並加強受影響帳號安全。
深度分析
Google於I/O 2026推出Gemini Spark AI 代理人,可在背景自動完成多步驟任務,如撰寫郵件與建立行事曆。測試顯示其能自行搜尋資料並產出草稿,但仍需使用者逐項驗證。高達每月百美元的訂閱費與資料隱私疑慮,使其實用性受限。此外,若未開啟個人智慧功能,Spark的表現會大幅退化。
深度分析
研究指出,自回歸影像生成在重建與生成間有落差,提出僅用AR損失訓練的前置代碼Prologue,將生成代碼前置於視覺代碼,成功降低gFID逾四成且保留重建品質,展示以獨立生成表示提升AR效能的新方向。在ImageNet 256×256測試中,Prologue‑Base將gFID從21.01降至10.75。
深度分析
本研究聚焦於車載多變量時間序列的協調異常,提出 AxonAD 以注意力查詢的短期可預測性作為偵測依據,結合重建誤差與尾部查詢偏差得分。查詢不匹配得分能捕捉跨通道協調斷裂,即使各通道幅度正常,也提供額外訊號;相較於 LSTMAD、SISVAE 等模型,AxonAD 在 AUC‑PR、Event‑F1 與 Range‑F1 等閾值自由指標上均領先。
速報
研究團隊提出 DTBench,一套以逆向 Table2Doc 流程自動生成文件的合成基準,針對文件轉表格(Doc2Table)任務建立兩層能力分類,涵蓋 5 大類 13 小類。實驗顯示主流大型語言模型在推理、忠實度與衝突解決上仍有明顯差距,凸顯此領域的挑戰與研究空間。
深度分析
研究聚焦於如何將真實 GitHub Pull Request 轉換為可驗證的搜尋/取代編輯訊號,提出 Clean-PR 中介訓練流程,並以 Search/Replace 區塊取代傳統 Diff。實驗顯示,於 SWE‑bench Lite 與 Verified 上分別提升 13.6% 與 12.3%,證明模型可在無代理架構下內化倉庫編輯能力。
深度分析
本研究針對在一般李群上出現的未知資料變換反轉問題,提出轉換反轉能量擴散(TIED)方法。透過在李代數上進行的擴散抽樣,保持所有更新於流形上,並以能量函數建模變換後驗後分布。實驗以影像同倫與偏微分方程對稱性為測試場景,證明 TIED 能在測試時將變換後的輸入恢復至訓練分布,提升預訓練網路的準確度與穩定性,超越傳統正規化與抽樣基線。
速報
儲備運算(Reservoir Computing)在時間序列處理上表現優異,但因必須串行處理與高維儲備的記憶需求,難以大規模應用。
深度分析
研究提出MaskCaptioner,利用先進視覺語言模型自動產生影片中每個物件的遮罩與文字敘述,並以LVISCap與LV‑VISCap兩套合成資料集進行端到端訓練,於VidSTG、VLN與BenSMOT三大基準創下最新成績,顯示合成標註可提升密集影片敘述效能。