速報 - Agents Report | 代理人報告 (Page 36)

速報

人工智慧會議摘要評估系統：可重複、隱私保護與保留率差異揭示

在實務上，團隊常在尚未完成回歸或模型選擇前推出會議摘要功能。本研究提出一套面向實務的人工智慧會議摘要評估系統，結構化地建構標註、以固定候選摘要供評審比較，並採主張依據的評分方法；系統同時提供隱私界定的線上監測與提名介面，以輸出隱私安全的聚合指標。

速報

MobiBench：模組化多路徑離線基準為行動 GUI 代理帶來可重現性

行動 GUI 代理可在使用者與手機應用間代操作，但現有評測分為單一路徑離線資料與動態線上測試，各有誤判或不可複現的問題。MobiBench提出首個模組化且具多路徑感知的離線評測框架，能在靜態環境中實現高擬真、可擴展與可重複的評估。

速報

LLM後截止效能衰減並非單純汙染信號：題目轉換大幅改變時間性表現

研究指出，評估大型語言模型（LLM）在訓練截止後表現下滑常被視為基準資料汙染證據，但這項時間性訊號對基準題目構造相當敏感。作者比較直接從文件抽取的填空題（cloze）與由LLM改寫後的題目，並在先前報告衰減的基準（如LiveCodeBench）上驗證發現。

速報

研究：生成式人工智慧改變認知作戰——2024選舉貼文顯現新操作邏輯

研究比較2016與2024年美國總統大選推文，探討認知作戰的新威脅。透過語義分群、時間同步與Jaccard詞彙重疊量化分析，聚焦生成式人工智慧可能的操作邏輯。發現2024年以原創內容與敘事化同現為主，顯示生成式人工智慧改變了認知作戰模式化。

速報

MindLab Toolkit（MinT）：以 LoRA 為核心的千級策略管理與在線服務平台

背景：在少量昂貴基礎模型與大量衍生策略的情境下，MinT以LoRA adapter為單位管理策略生命周期。做法：維持基礎模型常駐、以匯出adapter進行rollout、更新、評估與回滾，並沿Scale Up（支援1T級密集與MoE）、Scale Down（僅移動小型adapter以降低步驟量）與Scale Out（將耐久可位址性與CPU/GPU工作集分離）三軸擴展。結果：MinT實現百萬級策略目錄管理與千級活躍adapter波次，並在共享大模型上訓練與部署選定修訂。

速報

廣播過程合成語言：上下文長度與自回歸推理的界限

利用樹狀廣播過程的合成語言檢驗上下文與推理。在精確k-gram假設下推導生成序列分布。發現：硬約束著色語言在有限上下文下會產生非法樣本，忠實抽樣需Ω(n)上下文；具推理的自回歸模型以Θ(logn)工作記憶可精確抽樣。實驗以變換器訓練結果驗證了理論預測。

速報

HetScene：異構兩階段生成提升室內場景真實性

生成可控且物理合理的室內場景是建構高真實度具身人工智慧模擬環境的關鍵。本文提出HetScene，基於物件在場域中的角色差異，將物件分為主要與次要兩類，採用異構兩階段生成流程：先以結構佈局生成（SLG）在文字描述、房間二值遮罩與空間關係圖條件下產出全局結構骨幹，再由情境佈局生成（CLG）補入次要物件與處理細部關聯。

速報

AuraMask：美學化反臉部辨識濾鏡，兼顧隱私與可接受外觀

面對日益普及的視覺監控與臉部辨識，研究尋求讓影像對電腦失效但保留人類可接受的外觀。AuraMask提出生成美學化反臉部辨識濾鏡的流程，模擬一鍵濾鏡風格並整合對抗擾動以維持外觀一致性與模型混淆。實驗顯示其對抗效果不遜於既有方法，且在630名線上受試者研究中取得更高接受度。

速報

I-POMDP 與 ToM-2：讓代理人偵測並回應使用者對其知識的錯誤認知

人與代理人互動常因雙方對彼此知識的錯誤判斷而受阻。本研究以 I-POMDP 框架實作第二階理論心智（ToM-2），讓代理人能模擬使用者對代理人知識的錯誤信念，並推估這些信念源自的認知偏誤與捷思法（CBH）。透過辨識何時出現認知偏誤，代理人能產生調整性的回饋來補償誤解，改善當下互動並提升未來教學或協作的品質。

速報

角度均值（Angular Mean）：用球面平均改善線性排序的個人比例性

研究探討在反覆使用的排序決策中，如何集體選擇一條線性規則以兼顧不同選民偏好。作者以線性排序為框架，將每位選民的偏好表示為一個偏好向量，並根據人口比例引入「個人比例性」（IP）標準，要求各類選民在集體排序中的認同度能與其份額對應。研究指出，傳統算術平均偏向多數意見，無法公平反映少數偏好；

速報

多模態大型語言模型與視覺美學落差：Visual Aesthetic Benchmark (VAB) 實測報告

多模態模型應用於視覺任務。本研究提出VAB，採集合式比較替代單張數值評分，涵蓋400任務與1195張影像，並由10位專家共識標注，與多款前沿MLLM及視覺品質獎勵模型進行評估。結果顯示最強系統僅在26.5%任務正確選出最佳與最差，落後專家表現。

速報

從 MaxCal 到 IIT：用受限最大路徑變分連結自由能原理與整合資訊理論

這項研究把資訊定義為受限最大慣量(MaxCal)路徑集合下實際動態的偏離，並從變分原理導出IIT的因果構造，指出此框架與主動推理在Langevin動態下數學對偶，且在馬可夫鏈與Ising模型的極限定理討論中，該資訊等同於預測誤差，為融合自由能原理、整合資訊理論與認知熱力學提供數學基礎