Agents Report | 代理人報告 (Page 46)

深度分析

「小型超曲率語言模型」實現創造力、可審核誠實與選擇性遺忘

隨著語言模型成為個人助理，研究提出小型超曲率模型，藉由超曲率幾何實現創造力、可審核誠實與設計遺忘，實驗顯示二至三億參數模型在這三項特質上超越百億規模模型。同時提出以骨架與壁紙區分的記憶機制，讓AI能在長期關係中保留核心資訊、遺忘日常細節。此舉或將重塑AI伴侶的商業格局。

深度分析

「風險感知通用效用馬可夫決策過程」：熵風險度量結合蒙地卡羅樹搜尋的實作與驗證

研究針對通用效用馬可夫決策過程加入風險感知目標，提出以熵風險度量為基礎的風險感知框架，並利用蒙地卡羅樹搜尋在線規劃求解，實驗驗證在探索、模仿學習及多目標任務中能有效平衡期望表現與風險偏好，提升策略的魯棒性，此方法亦展示於不同折扣因子設定下的穩定性，為未來風險感知決策提供實作基礎。

深度分析

大型語言模型的地緣政治背書效應：GPT‑5、Claude Sonnet、Gemini 2.5 Flash 與 DeepSeek 評分實驗分析

本研究檢驗大型語言模型在評估國際經濟與安全政策時，是否因隨機標示的美國、歐盟、中國或俄羅斯背書而產生分數差異。以 GPT‑5、Claude Sonnet、Gemini 及 DeepSeek 四款模型，分別在僅給分與附加說明兩種條件下測試。結果顯示西方背書普遍得到較高分，且說明需求會改變評分走向，突顯模型內建的地緣政治偏見。

深度分析

從 AI Skillstore 到四大平台：軟體工程技能的分布、評估與安全機制

AI代理技能市場快速成長，將軟體工程活動封裝為可重用技能。研究收集11,497件技能，發現開發類占比最高，評估機制多聚焦安全與實用性，且不同平台分類差異明顯。此趨勢預示未來開發者將更依賴技能生態，影響AI產業與軟體開發流程。同時，安全審查與版本管理仍是挑戰。

深度分析

「ReGen」階層多提示與通用流匹配提升低比特率波形擴散模型效能

隨著語音AI需求提升，研究提出ReGen以階層多提示同時生成表示與波形，克服REPA造成的向量糾纏，並透過GFM防止流向收斂。實驗在12.5Hz低比特率VAE與25Hz編碼器上提升音質，ReGenVoice僅用小規模資料、四張GPU一天訓練，即提升辨識率與說話者相似度，推論RTF僅0.08，顯示大幅提升生成效率與品質。

深度分析

資訊瓶頸動態框架 IB‑Flow：突破 2 步文字‑影像生成的效能上限

隨著大規模文字到影像模型在品質上突破，推理速度仍受多步限制。IB‑Flow 利用資訊瓶頸動態選取注入時機與強度，於2步配置下消除過度條件化，實現最新的生成忠實度。此框架克服靜態注入限制，較傳統CFG蒸餾與Flow Matching在結構保真與色彩自然性上有明顯優勢。

深度分析

「演化智慧」驅動 AI 科學發現：從演化計算到自動化實驗與大型語言模型的累積式探索系統

本報導深入探討演化智慧（EI）如何將傳統演化計算（EC）升級為支援累積式科學發現的框架。文章先說明 AI 從任務導向自動化向閉環探索系統的轉變，接著以五維分析模型說明 EI 在「演化目標、變異來源、選擇依據、回饋來源、演化時機」五個面向的設計要素，並比較現有 EC 方法在候選集、變異操作與回饋形式上的限制。

深度分析

關聯感知上下文多臂賭局與代理獎勵：提升大型語言模型路由效率的 CABS‑C 與 CABS‑D 方法

隨著大型語言模型數量激增，選擇最適模型成系統挑戰。研究提出結合關聯圖與代理獎勵的上下文賭局演算法CABS-C與CABS-D，利用預測降低探索成本，同時在代理錯誤時保持魯棒性。實驗顯示樣本效率提升，成本效益優於傳統基線。並為未來模型選擇提供新思路。

深度分析

Causal Language‑Action Prediction (CLAP) 讓 VLM 直接轉換為高效視覺語言動作模型

視覺語言模型轉為視覺語言動作模型的挑戰在於輸出分布不匹配，CLAP透過在動作代幣前加入自然語言描述，使預訓練語意保留，同時僅需單輪微調即可在LIBERO測試中達到90.8%成功率，顯示此簡潔流程提升效能且易於分析。預期此方法將加速多模態機器人開發，降低門檻。

深度分析

AlphaZero 於稀疏獎勵遊戲的限制與 AZAL 輔助損失的效能提升

本研究以ConnectFour與Chomp為測試平台，探討AlphaZero在稀疏獎勵環境下的強大與完美表現差距，提出加入Oracle輔助損失的AZAL方法，顯著提升策略的一致性與最終勝率。實驗顯示，在10×11的Chomp棋盤上達到全局一致，且在ConnectFour上仍有錯誤。

深度分析

LLM 生成程式碼的結構一致性檢測：圖形屬性圖與混合驗證框架

隨著大型語言模型輔助寫程式的普及，生成的程式碼常在編譯與測試階段通過，卻在部署後出現結構不一致的錯誤。研究以圖形一致性不變式定義八類結構失敗，建構混合驗證框架，結合靜態分析與自製跨圖偵測器。實驗顯示，多數結構缺陷逃過型別檢查與測試，且不同模型的失敗模式差異明顯，突顯專門結構驗證的必要性。

深度分析

Eluna：圖形導向代理式 LLM 結合非對稱蒸餾實現倉儲 SOP 自動化

倉儲SOP複雜且需即時執行，Eluna以有向無環圖編碼流程，透過漸進揭露只呈現可達子圖，並採用非對稱蒸餾將大型教師模型的修正內化至32B學生模型，使其在實務基準上超越所有商用基線，票證處理任務達到94%專家一致性，顯示圖形導向代理可在高壓環境下提供可靠自動化。

Latest

「小型超曲率語言模型」實現創造力、可審核誠實與選擇性遺忘

「風險感知通用效用馬可夫決策過程」：熵風險度量結合蒙地卡羅樹搜尋的實作與驗證

大型語言模型的地緣政治背書效應：GPT‑5、Claude Sonnet、Gemini 2.5 Flash 與 DeepSeek 評分實驗分析

從 AI Skillstore 到四大平台：軟體工程技能的分布、評估與安全機制

「ReGen」階層多提示與通用流匹配提升低比特率波形擴散模型效能

資訊瓶頸動態框架 IB‑Flow：突破 2 步文字‑影像生成的效能上限

「演化智慧」驅動 AI 科學發現：從演化計算到自動化實驗與大型語言模型的累積式探索系統

關聯感知上下文多臂賭局與代理獎勵：提升大型語言模型路由效率的 CABS‑C 與 CABS‑D 方法

Causal Language‑Action Prediction (CLAP) 讓 VLM 直接轉換為高效視覺語言動作模型

AlphaZero 於稀疏獎勵遊戲的限制與 AZAL 輔助損失的效能提升

LLM 生成程式碼的結構一致性檢測：圖形屬性圖與混合驗證框架

Eluna：圖形導向代理式 LLM 結合非對稱蒸餾實現倉儲 SOP 自動化

大型語言模型的地緣政治背書效應：GPT‑5、Claude Sonnet、Gemini 2.5 Flash 與 DeepSeek 評分實驗分析