深度分析
VAKRA 基準:評估企業場景中 AI 代理的工具呼叫、多跳推理與失敗模式
VAKRA是可執行的工具導向基準,評估AI代理在企業場景跨API與文件的多步組合推理與執行能力。它要求代理在本地數千個API與多領域資料庫中產生完整工具呼叫軌跡並以執行結果驗證推理。研究發現現有模型在端到端工作流上普遍表現不佳,主要失誤集中於工具選擇、參數填寫與政策遵循。
深度分析
VAKRA是可執行的工具導向基準,評估AI代理在企業場景跨API與文件的多步組合推理與執行能力。它要求代理在本地數千個API與多領域資料庫中產生完整工具呼叫軌跡並以執行結果驗證推理。研究發現現有模型在端到端工作流上普遍表現不佳,主要失誤集中於工具選擇、參數填寫與政策遵循。
深度分析
背景:Sentence Transformers 擴展至多模態以處理文字與影像檢索。做法:以 Qwen3‑VL‑Embedding‑2B 在 Visual Document Retrieval 資料上微調,採 CachedMultipleNegativesRankingLoss 與 MatryoshkaLoss 訓練,並以 InformationRetrievalEvaluator 評估。結果:微調使 NDCG@10 從 0.888 提升到 0.947。
深度分析
隨著大型語言模型在對話上展現流暢度,將其應用於電商助理卻面臨任務完成率不足的挑戰。EcomRLVE‑GYM以多回合、工具增強的可驗證環境,透過自適應難度課程與程式化獎勵,讓代理人在商品搜尋、變體選擇、購物車建構等八大場景中學會精準執行。實驗顯示,使用Qwen3 8B於300步驟即可提升任務成功率與效率,預示RL在電商代理人領域的可行性與未來擴展潛力。
深度分析
近來以 Mythos 與 Project Glasswing 為代表的一類前沿系統,將「以模型為中心」的討論擴展到整體系統設計。這些系統把大型語言模型、軟體相關訓練資料、針對漏洞探測與修補的自動化支架、以及高速運算資源結合,能快速定位並修補軟體弱點。
深度分析
本文解析如何把 CPU 的批次準備與 GPU 的計算分離,透過 CUDA 流(streams)與事件(events)實作非同步連續批次(asynchronous continuous batching),消除同步批次下 CPU/GPU 互相等待的空窗。
深度分析
ServiceNow-AI在將rollout推論引擎從vLLM舊版遷移到新版時發現訓練端與推論端的token logprobs存在語義與數值差異。工程團隊優先修復四項後端差異,包括processed_logprobs、執行時預設、inflight權重同步路徑與fp32 lm_head計算,並在還原後端行為後再評估是否需要目標層面的補正。修正後關鍵指標回歸先前軌跡,顯示先保證推論正確性再做目標調整的流程能更清楚分離問題來源。
深度分析
DeepSeek發表V4,主打可實際應用的百萬標記上下文:以壓縮稀疏與高度壓縮交錯注意力大幅減少KV快取與推論成本,並以DSec沙箱與DSML工具格式強化長時程代理訓練與工具呼叫,提升代理任務穩定性與競爭力。並在多項代理基準展現具競爭力成績
深度分析
背景:多語向量模型常在語言覆蓋與模型體積間拉鋸。IBM推出GraniteEmbeddingMultilingualR2,包含97M與311M兩款,支援200+語言、32K長度與程式碼檢索;97M在MTEB多語檢索下領先同級,311M則以Matryoshka截斷提供靈活維度選擇並提升長文與跨語檢索表現。
深度分析
在無法回傳微分或記憶體受限的場景下,零階(Zeroth‑Order)優化是重要工具。論文提出 Coherent Coordinate Descent(CoCD):一種確定性、循環式的座標更新方法,透過 FIFO 型梯度緩衝與衰減機制把過去(stale)梯度當作暖啟動資源,並用較大步長的有限差分帶來隱式平滑效果。
深度分析
本研究指出臨床多模態預測與醫療文件之間有語意斷裂,提出ProtoMedAgent,將凍結原型骨幹蒸餾為隱私受限的離散語意記憶,並以零梯度的反思式Scribe‑Critic迭代生成、用集合差分嚴格約束敘述,顯著提升證據對照一致性並降低成員推論風險。
深度分析
機器人基礎模型長期以均等權重訓練動作,導致對決定性慢速段落學習不足。AttenA+以末端速度做反向加權,將訓練重心下放至低速、精密動作,並以多種速度權重策略驗證效果。實驗在Libero與RoboTwin上顯示成功率提升,且於Franka實機驗證出更佳穩健性。
深度分析
貝式推論在實務上常受後驗計算困難限制。本研究提出自監督拉普拉斯近似(SSLA),以對模型自我預測資料重擬合,直接逼近後驗預測分布。該方法不依賴抽樣,能插入不同先驗並提供可解釋的敏感度訊號,實驗於各類回歸任務表現出較佳預測校準與計算效率。更利於實務採用