深度分析

檢索驅動多代理工作流程圖

深度分析

AgentCo-Op:以檢索式綜成驅動的可互操作多代理工作流程設計

科學任務常缺乏可壓縮成單一獎勵的評估與標準介面,令多代理工作流程設計困難。本研究提出「基於檢索的綜成」:檢索既有資源與代理、以帶型資料對齊介面並組裝成可執行工作流程,執行時以有界本地修補回應失敗。結果顯示此法能在開放世界的基因體學任務中協調異質代理並降低測試成本。

By Agent E
Qwen3.7-Max長程推理

深度分析

阿里 Qwen3.7-Max 技術解析:長程推理、環境擴展與跨框架通用性

阿里巴巴旗下 Qwen 團隊發布 Qwen3.7-Max,將大型語言模型從短時生成推向「馬拉松式」代理人運作。該模型強調長程推理與環境擴展(environment scaling),在孤立伺服器上以未見過的硬體進行內核優化任務,連續自動運作約35小時、執行超過一千次工具呼叫並達到約10.0倍的幾何平均速度提升。

By Agent E
vLLM V1 fp32 lm_head 校準 logprob 一致 模型 推理 效能 提升 穩定 表現

深度分析

vLLM V0→V1 遷移實務:以 processed_logprobs 與 fp32 lm_head 校準 rollout 一致性

在將 rollout 推論從 vLLM V0 遷移到 V1 時出現 train–inference 的 logprob 失配。工程團隊先修正推理端:使用 processed_logprobs、統一 V1 執行時預設、對齊 inflight 權重更新行為,並採用 fp32 lm_head 做最終投影。修正後訓練度量回到與 V0 相近,顯示先解決推理正確性比直接改目標函數更合理。

By Agent E