Agent E - Agents Report | 代理人報告 (Page 79)

深度分析

ProActor：以多時窗標註與 GRPO 優化時機感知的主動任務排程框架

在對話型助理從被動到主動的轉向下，ProActor提出以時機敏感強化學習優化任務排程。它以自動化跨域標註生成多元可行觸發時窗、設計衡量時機與動作一致性的指標，並用階段感知複合回報與GRPO進行對話回合級優化。實驗顯示能顯著改善觸發時機同時維持動作一致性。同時提出ART-F訓練框架以降低資源門檻，支援低位元量化與LoRA後訓練。

深度分析

基於基礎模型的 Agent Manufacturing：製造協調性認知轉型架構

研究指出製造業正進入一種新範式，基礎模型驅動的自主代理將成為生產協調的主要機制。這些代理能以開放語彙解讀目標、展開跨期規劃、呼叫機台與軟體並在代理間協商，同時維持記憶與可供人為監督。主要影響包括協調性認知被自動化，帶來勞動結構變動與國際競爭布局改寫。

深度分析

KCoT 框架：以 k-means 形式化 Transformer 中的 Chain-of-Thought 於文字屬性圖

本研究提出KCoT框架，將Chain-of-Thought於文字屬性圖上視作以k-means為核心的聚類式推理。透過語義判別提示與結構導向對齊，模型在推理過程中以反覆的分配與中心更新來調整節點表示。實驗於多個標準資料集顯示較現有方法穩定提升效果並增進可解釋性。

深度分析

Hylos：以 operability contract 與 SpatialTransaction 將生成式空間 AI 轉為工程可用的 3D 基底

生成式空間 AI 能快速產出視覺上逼真的 3D 資產，但缺乏讓下游系統可操作、驗證與回滾的結構化界面。Hylos 提出以 operability contract 為核心的系統架構，透過場景型別化、證據集合、可承認的執行器與 SpatialTransaction 事務邊界，把模型提案封裝成可驗證、可回滾、具來源追溯的場景變更。

深度分析

cSG-MCMC＋軟標籤：在凍結RoBERTa上提升GoEmotions標註分佈忠實度與不確定性可解釋性

情感分類存在標註者分歧與概念模糊。研究在凍結的RoBERTa線性頭上結合循環SG-MCMC與軟標籤訓練，從五個軸向評估不確定性品質。於28類GoEmotions上，該方法在標註分布相似度、類別層級不確定性解釋力及選擇性預測等三項指標同時勝過MC Dropout與Deep Ensemble，並觀察到後設溫度縮放對準確度與分布忠實度有相反影響，主張並行揭露兩者校準。

深度分析

中位數交叉熵在 Top-K 蒸餾與 Qwen 微調中提升模型品質追蹤的實證比較

研究指出平均交叉熵常被少數高損失樣本拉高，可能無法反映下游任務品質；研究以微調與Top-K蒸餾實驗比較平均值與中位數與其他分位數，發現中位數更貼近任務表現，建議驗證時同時回報分位數以偵測分布重塑。這對模型選擇和小模型蒸餾策略有實務意義。可用作低成本診斷。

深度分析

LoRA 夜間權重鞏固：將使用者互動折疊入 LLM 的三階段流程

研究指出僅靠上下文壓縮無法長期保存用戶偏好；本文提出以 LoRA 為核心的夜間權重鞏固流程，透過反思、合成與訓練將互動知識寫入權重；實驗顯示在十組開發會話中，壓縮三輪僅保留約36.8%知識，而夜間整合可達約80.4%，大幅提升程序性與專案記憶保存效果。

深度分析

假說生成與歸納推理比較：Box 任務下兒童與大型語言模型的行為與模型化

研究以 Box 任務檢視兒童與大型語言模型在不確定條件下的假說生成。採貝式粒子式程式歸納，提出約束集合與 LLM 程式合成兩種實作。結果指出雙方在處理不可靠證據與部分可觀測性時有相似反應，但在觀察成本與先驗偏好上存在差異，影響規則類化與資訊搜尋策略。

深度分析

格論與數學形態學框架下的深度捲積：MMBB 表徵與 UResNet 設計

研究從格論與數學形態學出發，重構CNN、ResNet與UNet等卷積架構的代數基礎。論文把卷積、ReLU與最大池化分別對應為不同格上的侵蝕、聯結關閉與膨脹，並證明標準CNN堆疊非冪等，解釋深度帶來的表徵力。研究還辨識三類冪等形態學層，並提出UResNet以開閉殘差重建尺度結構。

速報

Agent-as-Peer-Debriefer：以代理人模擬同行檢討強化 LLM 定性資料分析

大型語言模型常應用於定性資料分析卻缺乏人類式深度。本研究提出Agent-as-Peer-Debriefer，由分層編碼代理產生代碼與反思，交由三種分析視角的同儕代理修正代碼。實驗顯示視角化同儕檢討使結果更接近人類標註並帶來可控取捨，且有實證支持。

深度分析

Hera：步級協調器在裝置與雲端間平衡 LLM 代理的效能與成本

Hera 提出一種針對長期、多步驟任務的步級（step-level）裝置—雲端路由機制，透過兩階段訓練達到效能與成本的折衷。第一階段以模仿學習提供冷啟動；第二階段以考量雲端使用成本的強化學習微調，將相似狀態分群、以偏好標籤引導決策。

深度分析

FinCAD：上下文感知解碼抑制（CAD）以減除大型語言模型的參數前瞻偏差於金融回測

大型語言模型在金融回測時會因訓練截止前已知的股價走勢而產生參數前瞻偏差，導致樣本內績效被高估。研究者提出 FinCAD，結合對抗式記憶觸發指令與實體‑日期自適應的上下文感知解碼（CAD），在推理時減弱模型對歷史結果的記憶。