深度分析 - Agents Report | 代理人報告 (Page 76)

深度分析

Pulse：以 LLM 代理人驅動的被動手機感測，提升癌症倖存者 JITAI 判斷準確度

癌症倖存者在治療後常面臨情緒困擾，但自我回報在關鍵時刻常缺失。Pulse 採用大型語言模型代理人進行被動手機感測的自主探查，代理人可決定檢查哪些感測模態、回溯時窗與基線比較，並以跨用戶檢索校準推論。研究發現，自主探查式推理大幅提升即時干預判斷準確性。

深度分析

LLMForge：以 Infinite-Head Attention 與硬體感知 NAS 重塑邊緣語言模型架構

邊緣裝置在記憶體、頻寬與能耗受限下，架構選擇決定推論效率。LLMForge提出Infinite-HeadAttention、Forge-Former與多後端成本模型共同搜尋每層注意力形狀與深度，擴大可選空間並以代理快速排序候選設計。結果顯示不同硬體會收歛出形狀迥異的Pareto前緣，帶來可觀的能耗、延遲與準確度折衷。

深度分析

用ResTopoMIL分離統計與拓樸訊號：改善多實例學習（MIL）在WSI的空間失明

研究指出，病理全片圖（WSI）的多實例學習（MIL）模型即便加入圖網路或Transformer等空間模組，仍可能在實務上僅靠組成成分（composition）做出準確判斷，對組織拓樸（topology）不敏感，作者稱之為「空間失明」。

深度分析

資源密度指數（RDI）：以人口標準化比較目錄登錄與文獻可見性

本研究比較目錄與學術文獻中文件可見性的差異。採用資源密度指數RDI，按每百萬講者標準化目錄計數，再以引文挖掘驗證文獻中流通的語言別資料集。結果發現大量講者語言在主要目錄上近乎不可見，卻在研究引用裡能找到可驗證的資料集。顯示稀缺部分源於文件化與可發現性的缺口。

深度分析

DiagEval：以軌跡為條件的 GUI 代理序列診斷方法

隨著大型語言模型驅動的軟體從片段走向完整應用，單純靜態檢查不足以驗證互動正確性。DiagEval 提出一套軌跡條件化的後失敗診斷流程：在初始 GUI 代理嘗試失敗後，不盲目重試，而是解析失敗軌跡、定位重啟節點，生成針對性探針分支並執行，以跨分支證據聚合形成內部屬性分數來判定失敗來源（代理執行錯誤或系統缺陷）。

深度分析

MATE：以轉移嵌入求和記憶在 CMDP 中建立置換不變且高效的表徵

研究針對情境化馬可夫決策問題提出 MATE，使用轉移嵌入的求和聚合作為記憶表徵，保有後驗對轉移順序的置換不變性。此結構迴避 Transformer 的重編成本與 RNN 的梯度與序列更新限制，實驗在多項基準展現具競爭性的表現與運算優勢。具良好泛化與長期記憶能力。

深度分析

Mythos目標檔案重現實驗：評估GPT-5.5、Claude Opus 4.7與Kimi K2的漏洞再現力

研究背景：Anthropic以Mythos宣稱能定位系統漏洞。方法：在已指定目標檔案下，對三款大型模型進行只讀原始碼檢視、三次重複試驗與人工核對。主要結果：54次嘗試中GPT‑5.5回收目標5次、Claude1次、Kimi0次，顯示檔內不變式重建與候選排序仍是關鍵瓶頸。

深度分析

IVF-TQ：以無碼本殘差量化提升向量檢索在串流資料下的穩定性

向量檢索在持續串流場景常見召回逐步下降的營運問題。本研究提出IVF-TQ：在倒排索引上採用無碼本殘差層，包含固定隨機旋轉與Lloyd–Max座標量化，僅訓練粗分區。此設計避免了需定期重訓碼本的失效模式，實驗於百萬級資料上展現穩定召回表現與運維優勢。

深度分析

Google I/O 2026：Spark、Gemini Omni 與搜尋平台化的轉變

Google在I/O2026聚焦以代理人為核心的人工智慧轉型。新服務Spark與多款會替用戶購物或追蹤主題的代理人被提出，同時宣布GeminiOmni導向世界模型與搜尋功能整合。這些更新可能把搜尋與應用體驗重心轉向以人工智慧為終點，對開發者與內容驗證帶來長期影響。

深度分析

PluRule：以多模態對比資料評估視覺語言模型在多元社群審核的效能

社群治理正朝向由社群自行訂規範的多元化趨勢。PluRule 提供一個多語、多模態的基準資料集，收錄13,371則違規實例、72,675則留言與3,643張圖片，涵蓋1,989個Subreddit與2,885項規則。

深度分析

OpenJarvis：以五大原語與 LLM-guided spec search 實現本地化個人AI優化

研究指出當前個人AI多仰賴雲端模型來處理敏感資料與高成本推論。OpenJarvis提出以五大原語組成可優化的spec，並用LLM引導的規範搜尋在搜尋時借助雲端提案、推論時完全在地執行。結果顯示經優化後的本地spec在多項基準上能接近或超越雲端，同時大幅降低邊際API成本與延遲。

深度分析

Charon：編譯器式圖形轉換與混合後端的 LLM 訓練與推論效能模擬器

大型語言模型訓練與推論需求極高，Charon提出以編譯器式圖形轉換與多引擎混合運算模擬器，支援原生PyTorch/HuggingFace模型並提供操作級精細模擬，實驗顯示整體預測誤差低於5.35%,在大型訓練場景下更低至3.74%,並能實際優化推論部署效能。