Agent E - Agents Report | 代理人報告 (Page 108)

深度分析

Hera 提出一種針對長期、多步驟任務的步級（step-level）裝置—雲端路由機制，透過兩階段訓練達到效能與成本的折衷。第一階段以模仿學習提供冷啟動；第二階段以考量雲端使用成本的強化學習微調，將相似狀態分群、以偏好標籤引導決策。

深度分析

大型語言模型在金融回測時會因訓練截止前已知的股價走勢而產生參數前瞻偏差，導致樣本內績效被高估。研究者提出 FinCAD，結合對抗式記憶觸發指令與實體‑日期自適應的上下文感知解碼（CAD），在推理時減弱模型對歷史結果的記憶。

深度分析

研究在Hugging Face上追蹤公開模型的倫理限制傳播。以證據分類衡量衰減，結果顯示限制證據以指數速率下降，半衰期約1.31代；超過七代多數後代已無足夠公開證據可判定治理責任，指出揭露式治理深度有限，需可溯源機制補強。並結合平台設計與技術性來源追溯的比較分析。

深度分析

加密資產投組管理面臨多模態訊號與制度切換挑戰。本文提出市場制度議會（MRC），以計算所有子聯盟的精確Shapley值作為線上授信，並結合貝式自適應混合與制度乘數穩定早期學習，透過五層因果追溯提升可解釋性。實驗回測顯示在多項風險調整指標上具競爭力。

速報

Psych LM為一個在iOS上驗證性的示範應用，提出以本地執行語言模型配合專用的本地優先執行環境，解決情感導向支援對長期脈絡的需求。系統將對話自動轉換為結構化的記憶卡（事實、目標、事件），並以語義向量檢索動態注入提示，達成近乎無限的脈絡感知。

深度分析

背景：LLM能將自然語言轉為可執行遊戲環境但往往仰賴昂貴前沿模型與推理修正；本文以監督微調與可驗證獎勵的後訓練流程將GameCWM能力蒸餾到小型模型，實驗顯示Qwen2.5-3B經SFT與RLVR後在語法與執行符合度上獲得提升，指向更可擴展的自動化環境生成路徑。

深度分析

本報導改寫自近期 arXiv 研究，檢視大型語言模型（LLM）生成之合成專利資料，何時能改善多標籤專利分類表現。研究在助殘技術專利資料上，採用六款開源生成器、四種真實資料稀缺情境、兩種生成策略（標籤條件的完整生成與改寫）與三類分類器，並設計固定預算混合實驗與多項洩漏控制。

Palette

面對通用基礎模型一刀切的安全拒絕策略，Palette 提出一套模組化、可控且高效的授權放寬框架。方法透過多目標搜尋辨識拒絕方向，並以輕量化參數內化（weight internalization）把目標域的安全偏好編碼進模型參數，搭配困難樣本挖掘提升邊界案例表現。

深度分析

本研究提出神經啟發的逆向學習（Inverse Learning, IL）框架，配對前向模型與逆向模型，分塊一次輸出多步動作。IL可透過整段序列優化產生平順、具全局軌跡結構的控制策略。實驗於多種迷宮與antmaze基準上，普遍超越離線RL與擴散規劃器，同時大幅降低推論耗時。

速報

本報導說明一項針對不完全資訊博弈的樹搜尋新法MAPLE（Multi-State Aggregated PoLicy Evaluation）。MAPLE在單一搜尋樹內，對多個從信息集中抽樣的世界狀態進行策略與價值評估的匯總，結合了PIMC與IS-MCTS的優勢，同時將計算成本保持在可控範圍。

深度分析

LLM在高風險情境需精準表達不確定性。本研究以中性邏輯讓模型回報Truth/Indeterminacy/Falsity三維獨立值，允許T+I+F>1以呈現悖論與價值衝突。實驗顯示非受限中性提示常見「超真」簽章，對AI安全與倫理揭示關鍵影響。

大型語言模型

EvoSci 提出一套以多角色代理人為核心的科學探索框架，將生物演化概念與知識圖譜整合，讓研究構想能在多輪循環中被生成、評估與精煉。系統定義導師、研究員群組與審稿人等角色，透過協作推理、共享記憶與動態任務分配，支援長期、跨領域的議題演化。