深度分析
Hyperparam:在瀏覽器與代理人沙箱以 JavaScript 直接查詢 Parquet 與 Iceberg
研究指出非結構化文字已成生產環境增長最快的資料類型,提出在瀏覽器與代理人沙箱直接查詢 Parquet/Iceberg 的 JavaScript 引擎與庫,透過逐欄延遲解碼與非同步 UDF,將昂貴模型推理延後執行,顯著降低冷啟動與推理成本,並改善查詢互動延遲與模型計費。
深度分析
研究指出非結構化文字已成生產環境增長最快的資料類型,提出在瀏覽器與代理人沙箱直接查詢 Parquet/Iceberg 的 JavaScript 引擎與庫,透過逐欄延遲解碼與非同步 UDF,將昂貴模型推理延後執行,顯著降低冷啟動與推理成本,並改善查詢互動延遲與模型計費。
深度分析
隨著大型語言模型在具身代理中的應用普遍,記憶仍多為外部檢索。研究提出PEAM框架,將成功與修正的操作軌跡內化為參數化適配器,並以失敗為訓練訊號。此設計透過每類別獨立的LoRA適配器避免跨技能遺忘,且以自觸發機制在失敗統計達標時自動內化,免除手動門檻,提升了代理的實時反應速度。
retrieval-augmented-generation
隨著人工智慧生成文本在研究流程中普及,論文內引用與聲明不一致的風險攀升。DeepSciVerify提出一套兩階段的驗證流程:先在摘要層級以大型語言模型進行快速判斷,對不確定的案例才升級檢索全文並以段落證據比對。
速報
自主與代理型人工智慧在實際場域放大後,幻覺與不當持續行為成為挑戰。論文提出 SMARt 管理型自治框架,定義偵測認知漂移、暫停推理、嘗試恢復與放棄控制等行為,並以帶時限的受護 Petri 網給出形式化守則,主張把失敗管理納入自治生命週期以提升可治理性。研究也討論場域觸發集合的適配與安全擴展。
深度分析
研究指出,AI與人互動時要既懂人類規範又能在規劃中遵守。本文提出一個處理動態規範衝突的可推翻演算,從自然語言的規範證詞推論個別的規範信念,並將推論結果作為規劃的守門條件。理論證明一致性並以SocialBot對話實驗驗證其在隱私情境的應用價值。
速報
ArXiv發表LagunaM.1與LagunaXS.2,兩款為長程代理式編碼設計的MoE基礎模型。作者說明在稱為ModelFactory的系統中從頭訓練與量化;M.1與XS.2在軟體工程與終端機基準上與同級開源模型相當,XS.2權重已以Apache2.0釋出。
深度分析
在即時串流環境中,傳統查詢驅動分析難以主動發現現象。本研究提出以多代理與類型化中介件合約驅動的發現代理,結合Kafka、Flink與大型語言模型,自動生成假說、編譯可執行分析、驗證並部署視覺化應用。結果展示從被動查詢轉向持續自動發現,可提升可觀測性與部署安全性。
深度分析
DynaSchedBench提出一套針對動態彈性工作車間排程(DFJSP)的可校準基準框架,核心是以序列事件空間校準器(SESC)取代參數採樣,並引入排程壓力指數(SSI)來系統化分層難度。此框架整合模組化的生成、離散事件模擬、快照式環境、代理介面與評估工具,支援即時反應與前瞻規劃策略的嚴謹測試。
速報
研究聚焦塔吉克語在受限運算與連線下的部署。採用開放權重Gemma3為基礎,對1.9億字語料進行持續預訓,並以40000條教師式示例做監督微調。團隊同時建立並公開塔吉克語評測集。結果顯示Soro在塔吉克語基準上超越同尺寸基線,且FP8與INT4量化在降低記憶需求下仍保留語言進步,利於教育場域邊緣部署。
local-ai-agents
在開源倉庫中發現的專案 TaroCub,主張在開發者本機啟動真實 CLI 代理(Codex、Claude Code、Antigravity),並透過 Telegram 與飛書(Feishu/Lark)提供可續接的聊天介面與會話管理。
harness-engineering
Learn Harness Engineering 是一套以專案為導向的開源課程,聚焦於讓工程師理解與實作代理人系統所需的環境建構、狀態管理、驗證與控制機制。教材以 TypeScript 為主要示例,並提供多語文件與範例資源,方便不同背景的開發者上手。
RAG
WFGY是一個以人工智慧推理與RAG為核心的開源生態,採Polaris Protocol做為旗艦路線。專案以分階段釋出公開證據、可攜協議元件與復現材料為主軸,並提供Problem Map與Goal Compiler等工具,旨在強化代理系統的可驗證性與協作流程。