大型模型 - Agents Report

大佬動態

Moonshot AI 發布 Kimi K3：2.8 兆參數開放模型挑戰領先大廠

Moonshot AI 今晨推出 Kimi K3，參數約 2.8 兆、上下文長度 1 百萬 token，並承諾於 7 月 27 日開放權重。自報基準顯示在長程知識工作上大幅領先前代，且在多項測試中超過 Claude Opus 4.8 與 GPT‑5.5。此模型有望成為開放式 3 兆級別的首個大型模型，對開發者成本與生態產生深遠影響。

速報

全球 AI 模型網路 (AI-ModelNet) 架構：打造跨模型互聯與協同推理新範式

本研究探討隨著雲端、巨量資料與大型模型的快速發展，傳統大型 AI 模型面臨訓練成本高、部署複雜等挑戰，因而轉向輕量、私有與領域專屬模型。為解決異質模型間互動與協作的瓶頸，作者提出「全球 AI 模型網路 (AI-ModelNet)」概念，藉由建立模型間的連結通道，實現能力共享與協同推理。

深度分析

AI 代理人基準測試：transformers CLI 與 Skill 對大型與小型模型效能比較

AI代理人逐漸取代手動編程，研究以transformers為例設計工具基準，測試CLI與Skill在不同模型上的表現，結果顯示大型模型效率提升，小型模型可能下降，提醒庫維護者兼顧各尺寸模型需求，此基準同時捕捉代理人執行流程、代碼行數與錯誤率，提供庫開發者調整API與文件的依據。

深度分析

Agentic AI 時代：Transformers 開源模型工具效能基準與大型/小型模型比較

研究以Transformers為例，設計工具導向基準，測試大型與小型開源模型在CLI、Skill與完整克隆三種環境的效能。結果顯示，CLI+Skill能減少大型模型的執行時間與回合數，但會提升小模型的代幣消耗與錯誤率，甚至降低正確率。此發現提醒開發者在優化API時須兼顧不同規模模型。

速報

前沿大型模型無思考鏈推理效能翻倍　GPT‑5.5 兩分鐘內完成 50% 任務

研究測試前沿 AI 模型在不使用思考鏈（CoT）下的推理表現，涵蓋數學、程式、謎題等 43 項基準。結果顯示，模型的 50% 任務完成時間每年翻倍，GPT‑5.5 已超過 3 分鐘且需 1,500 以上推理 token。此趨勢若持續，預估 2028 年完成時間將超過 7 分鐘，對安全監控構成挑戰。

深度分析

事件驅動步級級聯：降低電腦使用代理人推論成本並提升成功率

隨著電腦使用代理人能直接操作圖形介面推動軟體自動化，每步皆使用大型模型導致成本高。研究提出事件驅動的步級級聯，預設小模型，僅在監測器偵測到卡頓或語意漂移時升級至大型模型。實驗在OSWorld與WebArena顯示，成功率與大型模型相近，同時將大型模型使用率降低逾七成，顯著縮短執行時間與成本。

深度分析

SCBench：階層化空間推理與規劃評測框架解析

隨著大型模型在空間推理需求上升，研究者提出 SCBench 以階層任務測試模型的內部環境表徵與規劃能力。透過可驗證的執行輸出，三款前沿模型在能力層級上呈遞減趨勢，且低代幣預算即獲顯著提升，失敗多因全域約束違反。（原文未詳述）

Moonshot AI 發布 Kimi K3：2.8 兆參數開放模型挑戰領先大廠

全球 AI 模型網路 (AI-ModelNet) 架構：打造跨模型互聯與協同推理新範式

AI 代理人基準測試：transformers CLI 與 Skill 對大型與小型模型效能比較

Agentic AI 時代：Transformers 開源模型工具效能基準與大型/小型模型比較

前沿大型模型無思考鏈推理效能翻倍 GPT‑5.5 兩分鐘內完成 50% 任務

事件驅動步級級聯：降低電腦使用代理人推論成本並提升成功率

SCBench：階層化空間推理與規劃評測框架解析

前沿大型模型無思考鏈推理效能翻倍　GPT‑5.5 兩分鐘內完成 50% 任務