深度分析
AgentCo-Op:以檢索式綜成驅動的可互操作多代理工作流程設計
科學任務常缺乏可壓縮成單一獎勵的評估與標準介面,令多代理工作流程設計困難。本研究提出「基於檢索的綜成」:檢索既有資源與代理、以帶型資料對齊介面並組裝成可執行工作流程,執行時以有界本地修補回應失敗。結果顯示此法能在開放世界的基因體學任務中協調異質代理並降低測試成本。
深度分析
科學任務常缺乏可壓縮成單一獎勵的評估與標準介面,令多代理工作流程設計困難。本研究提出「基於檢索的綜成」:檢索既有資源與代理、以帶型資料對齊介面並組裝成可執行工作流程,執行時以有界本地修補回應失敗。結果顯示此法能在開放世界的基因體學任務中協調異質代理並降低測試成本。
深度分析
研究指出大型語言模型在多層次社會推理仍有缺口。OSCToM以強化學習導向的生成器、擴展DSL與組合式替代評估器合成觀察者與自身信念衝突對抗樣本,並以分階課程微調小型模型。結果在信息不對稱基準FANToM上達到76%準確,且資料合成效率提升約6倍。
深度分析
研究指出產業設計受CAD與CAE語義差距阻礙。COSMO-Agent以工具輔助強化學習建立閉環流程,將CAD編輯、模擬求解與結果解析視為互動環境。模型透過多回合編輯與工具回饋,逐步修正參數與保持參數化歷史一致。實驗在固定工具呼叫與重試預算下,提高了可行性、互動效率與穩定性。
深度分析
面對代理人自動產生大量PR,Hugging Face 提供一套 Skill 與獨立測試工具,將 transformers 的模型移植到 mlx-lm。Skill 自動建立環境、下載模型、逐層比對並檢查 RoPE 與 dtype,還會產生生成範例與數值比對報告。此流程縮短移植時間並增加審查可驗證性。
深度分析
本文說明以微調多模態嵌入與重排序器應對視覺文件檢索的挑戰。採用大型視覺語言嵌入模型配合CachedMultipleNegativesRankingLoss與MatryoshkaLoss訓練,並以含難負樣本的評估集測量檢索成效。微調結果使NDCG@10從0.888提升到0.947,顯示領域微調能明顯改善檢索品質。
深度分析
阿里巴巴旗下 Qwen 團隊發布 Qwen3.7-Max,將大型語言模型從短時生成推向「馬拉松式」代理人運作。該模型強調長程推理與環境擴展(environment scaling),在孤立伺服器上以未見過的硬體進行內核優化任務,連續自動運作約35小時、執行超過一千次工具呼叫並達到約10.0倍的幾何平均速度提升。
深度分析
多語言檢索與長文件挑戰下,GraniteEmbeddingMultilingualR2以ModernBERT為基礎,推出97M與311M兩款模型,支援32K上下文與200+語言,在MTEB檢索基準顯著提升低參數模型表現並擴展程式碼檢索能力。
深度分析
在將 rollout 推論從 vLLM V0 遷移到 V1 時出現 train–inference 的 logprob 失配。工程團隊先修正推理端:使用 processed_logprobs、統一 V1 執行時預設、對齊 inflight 權重更新行為,並採用 fp32 lm_head 做最終投影。修正後訓練度量回到與 V0 相近,顯示先解決推理正確性比直接改目標函數更合理。
深度分析
面對雲端 GPU 成本與推論吞吐的雙重壓力,連續批次(continuous batching)雖能降低 padding 浪費,卻仍受限於預設的同步流程,使 CPU 與 GPU 交替閒置。
深度分析
研究指出新勒索家族Kyber宣稱採用後量子公鑰封裝(ML‑KEM)包裝對稱金鑰。其實檔案以AES‑256對稱加密,部分變種僅聲稱使用ML‑KEM但實際採用RSA。安全廠商Rapid7逆向發現Windows版本使用ML‑KEM1024。此作法更像行銷與心理策略,可能改變受害者談判與保險評估。
深度分析
安全研究團隊公開了一個名為CopyFail的Linux核心漏洞與可跨發行版的利用程式。漏洞源自加密API的邏輯失誤,導致認證副本複製超出緩衝區並覆寫記憶體。單一腳本即可在多數發行版上穩定提權,並可導致容器逃脫與多租戶系統全面破口。需立即修補與檢測並審慎評估影響
深度分析
Mozilla公開以Anthropic Mythos結合自製agent harness分析Firefox原始碼的流程。團隊用改良模型搭配可執行測試與第二個LLM驗證,讓模型產出可觸發記憶安全缺陷的測試案例並自動確認。兩個月內找出271項漏洞,誤報顯著下降。