ONNX Runtime - Agents Report

深度分析

Cross‑Origin Storage API 在 Transformers.js 中解決模型重複下載與快取問題

Transformers.js在瀏覽器中使用AI模型時，因快取以來源分割會導致相同模型與Wasm執行檔重複下載。跨來源儲存API以檔案雜湊為鍵，允許不同來源共享緩存，並可設定可見範圍。採用後可省下上百MB下載量，提升效能與降低成本。同時也降低了硬碟空間的浪費。

Vault-for-LLM

利用 SQLite 與 ONNX 向量搜尋，Vault-for-LLM 為 LLM 代理人提供本機持久記憶

Vault-for-LLM 針對大型語言模型代理人提供本機記憶層，使用 Markdown 撰寫知識後編譯成 SQLite 資料庫，支援關鍵字與可選向量搜尋，讓代理人在對話中即時查詢相關資訊，提升工作流程效率。同時支援MCP伺服器與Supabase同步功能，方便團隊在本機與雲端之間共享記憶。

Local LLM

Local LLM 與雲端 API 的權衡：建立可觀測、可測試的 AI Agent 運維架構

從資深系統架構師角度，說明為何把 AI Agent 建基於 Local LLM（如 Ryzen AI NPU、Apple Silicon 的 Unified Memory）更能滿足資料主權、離線韌性與長期成本效益。文章同時提供工程實務建議：端到端驗證、可觀測性設計、錯誤分級與升級策略，幫助團隊將半自動化轉為可靠自動化。

深度分析

Transformers.js v4 正式上線 NPM：全新 WebGPU 執行環境與模組化升級

Transformers.js v4 於 2026 年 2 月上架 NPM，採用全新 C++ 重寫的 WebGPU 執行環境，支援瀏覽器與多種 Node 替代執行環境，並以 pnpm monorepo 與 esbuild 重構套件結構。新版效能提升最高四倍、建置時間縮短至 200 毫秒，讓本地執行大型模型更為可行，預計將推動 WebML 生態快速成長。