深度分析 - Agents Report | 代理人報告 (Page 20)

Infographic showing imitation learning and EBT architecture for automated cyber defense.

深度分析

利用模仿學習與神經符號行為樹在 CybORG 環境中預測紅色代理人政策

隨著高階網路攻擊頻傳，研究提出以模仿學習於部分可觀測環境中推斷攻擊者政策，結合神經符號行為樹即時預測紅色行動，實驗顯示在多種攻擊策略下預測準確率超過九成。此方法可在藍方觀測到的主機與子網狀態下，利用先前觀測與藍方行動推斷紅方策略，對比傳統僅依賴藍方行為的 RL 模型，提升偵測與回應速度。

深度分析

DIVE：解決向量壓縮過擬合，提升 LLM 嵌入向量在小數據集的高效縮減

面對大型語言模型高維嵌入向量導致的存儲與延遲壓力，研究者提出 DIVE 壓縮適配器。該技術透過基於 Hinge 的三元組損失實現梯度自限，避免在數據稀少時過度擾動預訓練空間，並結合多頭 NT-Xent 對比損失提供自監督信號以防止模型崩潰。實驗顯示 DIVE 在多個 BEIR 數據集上性能全面超越現有方案，且能穩定提升檢索品質。

深度分析

LLM 驅動的 OS 調優系統 SemaTune：克服語義盲點提升 Linux 效能

針對作業系統在線調優中缺乏語義理解而導致性能崩潰的問題，研究團隊提出 SemaTune 框架。該技術將 LLM 引入調優迴路，透過快慢路徑雙迴路控制與顯式記憶機制，使系統能理解參數含義並在缺乏應用指標時仍能精準推理。實驗顯示 SemaTune 在 13 種工作負載中性能提升達 153.3%，且能有效避免傳統調優器常陷入的災難性性能下降區域。

深度分析

「RADAR」全自動閉環機器人資料生成平台：結合視覺語言模型與圖神經網路

隨著機器人學習需要大量物理互動資料，傳統人力收集成本高昂。研究提出 RADAR 系統，利用少量 3D 示範結合視覺語言模型與圖神經網路自動產生任務、執行並以 VQA 評估成功，最後以 FSM 完成環境自動重置。實驗顯示在模擬與實機上可達 90% 成功率，顯著提升資料取得效率。

深度分析

多輪辯論揭示 GPT‑4.1、Claude 3.7 Sonnet 與 Gemini 2.0 Flash 的價值取向與決策慣性差異

隨著大型語言模型被廣泛應用於日常諮詢與道德建議，研究者以 Reddit「Am I the Asshole」的千篇案例，讓 GPT‑4.1、Claude 3.7 Sonnet 與 Gemini 2.0 Flash 以同步與輪流兩種多輪辯論形式共同判定過錯。結果發現，同步模式下 GPT 修正率低於 3%，而 Claude 與 Gemini 超過 28%，且價值取向明顯分歧。辯論格式顯著影響模型的決策慣性與共識形成。

深度分析

超級遊戲理論於多代理系統的感知不一致與層級信念分析

面對多代理系統的感知不對稱與層級信念，研究者系統回顧超級遊戲理論，指出階層與圖形模型在欺騙推理上主導，且HNF應用仍少；同時比較RedQueenGodelMachine與參數化開源博弈，顯示超級遊戲在自我演化與合作誘導上具潛力，有望提升安全防護與人機協同。

深度分析

DVM-HALL 與 NHAS：AI 代理人如何重新定義品牌忠誠與機器顧客

隨著 AI 從推薦系統演進為能自主執行購買的代理人，傳統消費忠誠度模型已失效。研究提出 DVM-HALL 模型，透過整合人類情感、機器效用與可驗證執行力來定義品牌選擇，並引入 NHAS 指標量化人機對齊程度。該框架將 DeFi 執行風險納入考量，為企業在面對自主 AI 代理人接管消費決策的「機器顧客」時代提供關鍵的商業對策與治理路徑。

深度分析

LLM 驗證級聯的相關性影響：從指數衰減到多項式上限與盲點天花板

LLM 級聯驗證旨在透過多次檢查提升答案可靠度，但現有理論常假設每次驗證獨立。本研究指出驗證器與生成器常有共同盲點，導致可靠度提升由指數級轉為多項式衰減，且存在無法逾越的正確率天花板。研究證明單純增加驗證門檻效果有限，開發者應透過異質化模型或外部工具來降低相關性，才能有效提升 AI 系統的最終精準度。

Infographic showing Kaleido framework for 5.9x faster video generation.

深度分析

Kaleido：利用潛在空間相關性優化，將影片生成 Transformer 速度提升 5.9 倍

面對影片擴散 Transformer 因計算量龐大而導致的生成延遲，研究團隊推出 Kaleido 協同設計方案。該技術利用潛在空間中通道維度的時空相關性，開發通道重用演算法以跳過冗餘運算，並搭配可重構處理元件與數據分發器來優化硬體利用率。實驗證明 Kaleido 可將速度提升 5.9 倍並降低能耗，且維持高水準的影片生成品質。

Infographic of Social Digital Twins comparing traditional ABM with LLM-driven social simulation.

深度分析

從代理人基模型到社會數位分身：AI 驅動的社會模擬器

社會模擬旨在透過計算方法研究個體間的互動與集體行為。研究從傳統的代理人基模型出發，定義代理人的屬性、狀態與規則，並在網路結構中模擬個體互動。隨後演進至由大語言模型驅動的生成式代理人，進而發展出能鏡像現實世界社會系統的社會數位分身。此演進路徑將社會科學的理論實驗轉化為可量化、可預測的數據驅動框架，大幅提升了對複雜社會動態的分析能力。

OvisOCR2 end-to-end document parsing architecture and benchmark score overview.

深度分析

端到端文件解析新標竿：OvisOCR2 以 0.8B 參數與策略蒸餾在 OmniDocBench v1.6 獲 96.58 高分

文件解析長期依賴多階段管線方案，但容易產生錯誤累積。OvisOCR2 推出端到端架構，利用結合真實與合成數據的引擎，搭配 SFT 與強化學習及策略蒸餾技術，將文件影像直接轉換為 Markdown。該模型在 OmniDocBench v1.6 取得 96.58 分的頂尖成績，證明輕量級端到端模型能超越複雜的管線方案，提升解析準確度。

深度分析

AJPO 框架結合 ALLM 與 DPO 提升 Text-to-Audio 指令遵循能力

現有文字轉音訊模型雖音質優異，但常無法精準遵循多事件與時間順序指令。本研究提出 AJPO 框架，利用音訊感知大語言模型作為評判員，針對聲音事件完整度與時間順序提供細粒度回饋，並透過直接偏好最佳化提升模型表現。實驗結果顯示，該方法能有效改善生成音訊的事件完整性與時間正確性，並推出 S3Bench 基準測試以強化評估。