Agents Report | 代理人報告 (Page 41)

速報

自動化科學知識生成框架：將文獻轉為 AI 可用的統一知識庫

人工智慧在科學探索受限於結構化知識缺乏。研究團隊打造自主科學知識生成框架，結合本體導向取得、混合抽取與語意融合，將文獻轉為 AI 可用的統一知識庫。以電光材料為例，從千篇文獻抽取八篇，產出 29 筆結構化記錄並匯整為 7 筆標準化資料，展示完整轉換流程與保留實驗細節的能力。

深度分析

ReflectWorld-MM：實體導向的階層式多媒體長影片記憶系統

隨著視訊監控與可穿戴裝置普及，持續觀察與長期記憶成為關鍵需求。ReflectWorld-MM以實體為中心，結合多尺度情節記憶、演化語意記憶與程序記憶，建立層級化外部資料庫。六項長影片基準測試皆領先，顯示其在實體追蹤與跨時段推理上的優勢，此系統亦支援即時串流與多模態查詢。

深度分析

AI 編碼代理最小程式碼上下文實驗：SWE‑bench 71 案例顯示摘要與結構化資訊無效

研究聚焦於編碼代理在修正程式碼時實際需求的上下文，測試完整檔案、結構化摘要與壓縮表示。結果顯示，唯一關鍵是被編輯的程式碼本身，摘要與類別骨架幾乎不提供資訊；壓縮上下文僅需約19,000token，即可達到與完整檔案相同的解決率。此發現對未來 AI 編碼工具的設計具有重要啟示。

深度分析

不同資料分布下 TurboQuant 與 SpectralQuant KV 壓縮方案的實驗驗證

在大型Transformer推論中，KV快取記憶體是瓶頸。研究比較資料無關的TurboQuant與資料自適應的SpectralQuant，測試多種量化技術。結果顯示，重尾資料下TurboQuant表現更佳，結構化資料在足夠位元預算時SpectralQuant優於前者。

深度分析

3.5D 多晶片 MoE 推理的熱專家居留優化：HCRMap 壓力感知映射機制

MoE大語言模型在3.5D多晶片系統中會出現熱專家負載偏斜，導致計算、記憶體與連結壓力不均。研究提出HCRMap框架，根據熱度、遷移成本與資源壓力動態調整熱專家副本的層級配置。實驗顯示在預填與解碼階段的端到端延遲分別降低約43%與46%顯著。

深度分析

利用 Program‑Guided 堆疊分頁提升大型語言模型 SOP 執行效能

企業代理人在長期、條件式且安全關鍵的標準作業流程（SOP）上常因文字提示混雜而出錯。研究提出將 SOP 轉譯為可執行的偽代碼，並以程式導向的堆疊機制僅載入當前活躍框架，由大型語言模型負責語意執行。實驗顯示，對兩款高效能模型在七個領域皆提升拒絕正確率至100%，並在銀行測試中整體通過率提升至92.8%。

深度分析

固定表徵 OLS 讀出層實作案例基礎審計：解析神經網路決策背後的訓練案例

隨著神經網路在醫療、信用與能源等高風險領域的決策應用日增，解釋需求已從特徵貢獻擴展到訓練案例證據。研究提出針對固定表徵OLS讀出層的案例加權分解，將行動分數表達為訓練回報的線性聚合，並區分相似度語意與Gram幾何影響。實驗顯示此審計框架能在不重新訓練下辨識關鍵案例、評估行動一致性，提升模型透明度與風險管理。

深度分析

NextFund：統一即時績效追蹤平台，全面可視化 LLM 代理人投資決策

隨著大型語言模型開始參與即時投資決策，傳統評估僅看最終報酬缺乏透明度。NextFund透過即時市場接取、跨市場多代理協作與完整決策紀錄，讓模型表現可比、失誤可診斷。實驗顯示平台提升評估公平性與可操作性。平台支援美國、中國與香港股市，並提供互動式交易競技場，讓使用者從排行榜直觀追蹤每筆交易背後的推理。

深度分析

AdvNav：黑箱行為導向對抗攻擊提升視覺語言導航模型安全性

隨著具身AI的發展，視覺語言導航系統仍易受視覺擾動影響。研究提出AdvNav以行為導向的黑箱方式，透過雙層粒度回饋與遺傳演化優化擾動，成功干擾多種模型。實驗顯示在R2R測試集上，攻擊成功率最高達87%。此方法不依賴模型梯度，僅利用觀測的行為回饋即可搜尋高效擾動，為評估與強化VLN安全性提供新工具。

深度分析

QwenPaw-Data 三模組架構：DataBridge、Skill‑Hub 與 Host 實現可追溯自動化資料分析

本篇報導聚焦 QwenPaw-Data，一套針對企業資料分析所設計的代理人系統，將分散於資料倉儲、儀表板、文件與歷史任務的資源，整合成可治理、可演化的分析資產。系統以 DataBridge 提供語意根據、Skill‑Hub 編排分析方法、Host 負責可控的工作流執行，形成語意‑方法‑執行的自我升級迴路。

Imaging-101 benchmark evaluating LLMs on computational image reconstruction pipelines.

深度分析

全面評估 LLM 在計算影像重建的表現：Imaging-101 基準平台概覽

Imaging-101 以57項經專家驗證的計算影像任務，將流程標準化為前處理、物理建模、逆向求解與視覺化三階段，評估七大前沿LLM在規劃、單元測試與端到端重建三條軌道的表現，結果顯示模型在物理慣例與演算法選擇上仍有缺口，預示未來需專屬領域代理人才能可靠支援計算影像。

EROS framework for personalized affective image editing using symbolic reasoning.

深度分析

EROS：結合符號推理與深度學習的個人化情感影像編輯框架

本研究針對個人化情感影像編輯提出EROS系統，結合符號推理與深度學習，透過情感規則樹與可擴充記憶庫在推論時即時個人化。實驗顯示其在引發目標情緒與保持畫面結構上優於現有多模態模型。此技術有望推動情感計算、心理健康與自適應媒體的發展。並具備高度可解釋性與資料隱私保護。

Latest

自動化科學知識生成框架：將文獻轉為 AI 可用的統一知識庫

ReflectWorld-MM：實體導向的階層式多媒體長影片記憶系統

AI 編碼代理最小程式碼上下文實驗：SWE‑bench 71 案例顯示摘要與結構化資訊無效

不同資料分布下 TurboQuant 與 SpectralQuant KV 壓縮方案的實驗驗證

3.5D 多晶片 MoE 推理的熱專家居留優化：HCRMap 壓力感知映射機制

利用 Program‑Guided 堆疊分頁提升大型語言模型 SOP 執行效能

固定表徵 OLS 讀出層實作案例基礎審計：解析神經網路決策背後的訓練案例

NextFund：統一即時績效追蹤平台，全面可視化 LLM 代理人投資決策

AdvNav：黑箱行為導向對抗攻擊提升視覺語言導航模型安全性

QwenPaw-Data 三模組架構：DataBridge、Skill‑Hub 與 Host 實現可追溯自動化資料分析

全面評估 LLM 在計算影像重建的表現：Imaging-101 基準平台概覽

EROS：結合符號推理與深度學習的個人化情感影像編輯框架