深度分析 - Agents Report | 代理人報告 (Page 64)

深度分析

「PHREEQC-MCQ-200」基準評估工具增強大型語言模型在水相地球化學模擬的可靠性

隨著大型語言模型逐漸接入科學軟體，如何判斷工具使用是否提升計算可靠性成為關鍵。研究推出PHREEQC-MCQ-200基準，要求模型自行產生PHREEQC輸入、執行模擬並從結構化輸出中取得答案。結果顯示，工具增強能顯著提升整體正確率，但亦會導致部分已正確的題目失分，顯示效能並非單調提升。

深度分析

「Graph‑PRefLexOR」結合圖本位強化學習與群體相對政策最佳化，加速材料科學假說生成

材料科學跨領域整合需求提升，傳統大型語言模型缺乏可追溯推理。研究推出Graph‑PRefLexOR，採用圖本位強化學習與群體相對政策最佳化，將推理拆為五階段並生成概念圖。於100題材料與力學問答測試，效能提升40%至65%，推理可追溯性顯著改善，示意圖本位RL可成為科學假說生成的可解釋路徑。

深度分析

「Spire」：結構去噪驅動的逆向規劃在幻燈片頁面個人化中的應用與實驗評估

隨著多模態大語言模型推動自動化投影片生成，頁面級個人化仍缺乏精細控制。研究提出Spire框架，將個人化問題視為逆向規劃，利用結構去噪產生可驗證的重建任務，並以兩個強化學習代理共同優化設計計畫。實驗顯示Spire在多種基線上取得更高的視覺相似度與美感評分，顯示其在提升投影片個人化品質上的潛力。

深度分析

EntropyRuntime 齒輪機制：提升單體與多代理系統的安全與治理

隨著大型語言模型與機器人自律系統普及，安全與穩定成為關鍵挑戰。研究提出EntropyRuntime，以五段齒輪與效用門檻管控行動，並結合SMARt治理模型，實驗在三台UR5機械手臂上達到99.6%異常偵測率，顯示分散式安全機制可大幅提升多代理協作的可靠性。

深度分析

記憶體架構如何影響 LLM Agent 的語言演化：Lewis 信號遊戲實驗分析

研究探討 LLM Agent 如何在信號遊戲中從零開始創造共享語言。研究人員對比五種記憶體架構，發現記憶體架構對協調成功的影響力遠高於頻道容量。具備持久性私有筆記本的 Agent 能將互動歷史轉化為穩定的約定，避免在容量過高時性能崩潰，而僅依賴滾動視窗的無狀態 Agent 則在容量增加時表現下滑。此結果顯示記憶體架構是決定 LLM Agent 能否成功建立穩定語言系統的關鍵因素。

深度分析

「建構式對齊」：以控制論模型治理 AI 偏好動態的長期演變

隨著AI系統變得更持久且個人化，研究提出「建構式對齊」框架，將偏好視為層疊、動態的狀態，並以控制論方式治理AI對偏好的影響，旨在確保價值走向一致且避免操縱。研究指出，若未妥善治理，AI可能重塑使用者注意力與價值觀，導致長期偏好被外部力量左右；相對地，透過設計交互結構與透明度，可將影響限制在提升自主性的範圍內。

深度分析

受限代理人框架結合 LLM 與 Airflow：六類收集器的安全可靠資料收集方案

隨著公開網站資料需求激增，傳統手工爬蟲成本高且難以重用。本研究提出六類收集器、模板與JSONSchema限制的代理框架，結合Airflow排程與規則品質檢查，將LLM輸出轉為可驗證配置。實驗於80個驗證任務達成零執行階段LLM令牌、最短牆時延，證明此法適合低成本、可重複的開放資料收集。

深度分析

Hugging Face 推出本地化 Reachy Mini 語音堆疊：Silero VAD、Parakeet‑TDT、Gemma 與 Qwen3‑TTS 完整解析

Hugging Face 為開源桌面機器人 Reachy Mini 發布全本地化 Speech‑to‑Speech 堆疊，使用 Silero VAD、Parakeet‑TDT、Gemma 4 與 Qwen3‑TTS 四段式串接，讓語音辨識、語言模型與語音合成全程在本機執行，提升隱私保護、降低 API 成本，並預示本地 AI 代理在教育與敏感應用上的成長潛力。

深度分析

ScarfBench 基準：AI 編碼代理人在 Enterprise Java 框架遷移中的表現評測

IBM 研究團隊推出 ScarfBench，針對企業 Java 應用在 Spring、Jakarta EE 與 Quarkus 三大生態系的框架遷移提供完整基準。該基準不僅檢驗程式碼能否編譯，更要求部署成功與行為驗證，呈現出遷移任務的全景挑戰。

深度分析

本地 Gemma-4-26b 與 Qwen-3.6-35b 代理式 PR/Issue 分類實作與效能評估

2026 年因 Anthropic 收回 Claude Fable 5，開發者開始重視本地模型。文章說明以 Gemma‑4‑26b‑a4b 與 Qwen‑3.6‑35b‑a3b 結合 Pi 代理框架，實現即時 PR／Issue 分類，達到高精度且免除雲端費用。結果顯示本地模型在速度與成本上優於雲端方案，預示未來開源 AI 會更普及。

深度分析

Holo3.1 引入 0.8B‑35B 多規模模型與新量化檢查點，提升跨平台本地推論效能

2026 年 6 月 Hcompany 發布 Holo3.1 系列，擴展至網頁、桌面與行動環境，提供 0.8B 至 35B‑A3B 四種規模與 FP8、Q4 GGUF、NVFP4 量化檢查點，實現本地快速推論。新模型在 AndroidWorld 提升至 79.3% 正確率，端到端執行時間從 6.8 秒降至 3.3 秒，顯示效能與隱私兼顧。

深度分析

「DharmaOCR」利用直接偏好最佳化降低 OCR 文字退化率

研究針對 OCR 任務的文字退化問題，採用直接偏好最佳化（DPO）將模型自我產生的重複循環視為拒絕樣本，結合自動評分器形成偏好對。實驗在五大模型族群上皆降低退化率，平均減少 59.4%，最高達 87.6%。此方法顯示結構化生成任務可透過失敗輸出作為訓練訊號，提升可靠性。