速報 - Agents Report | 代理人報告 (Page 38)

速報

從經典Shielding到機率性安全：保守擴展與離線／線上構造法

研究聚焦在shielding這項模型導向技術對自主代理安全的應用。論文提出一個保守擴展框架,將傳統嚴格安全與最大允許性延伸到機率性安全領域。作者證明無法同時維持原始強保證,並提出具體弱化保證的shield與可離線與線上構造方法,實驗顯示新shield具備實用優勢與計算可行性。

速報

LoKA：系統—模型共設計讓FP8在大型推薦模型可行

GPU近年透過FP8提升運算，但大型推薦模型(LRM)因數值敏感難以直接套用。研究提出LoKA框架，包括Probe線上量測層級統計、Mods調整模型以增穩定性、及Dispatch於執行時選最快合格FP8內核。實驗顯示LoKA能在維持準確度下使LRM更實務化。

速報

Pi-Serini：用BM25與前沿LLM重塑深度研究的詞彙檢索代理

在大型語言模型能力提升下,詞彙檢索能否支撐代理式深度研究?研究以BM25配合更強的LLM並提出Pi-Serini搜尋代理,整合檢索、瀏覽與閱讀三項工具,實驗於BrowseComp-Plus顯示:精心調校的BM25加深度檢索可達高答案準確率與證據回溯率。

速報

SMART-HC-VQA：以 Sentinel-2 衛星影像打造的施工場址時序視覺問答資料集

以 Sentinel-2 衛星影像與 IARPA SMART Heavy Construction 標註為基礎，SMART-HC-VQA 將工地標籤與時序觀測轉為自然語言問答；採用影像對組合擴增生成大量比較樣本，並以多影像 MLLM 訓練框架驗證語言驅動的遙測變化與過程推理能力。

速報

語言模型與形式結構：擴展可檢驗的語言學理論

研究背景：先前論文將神經語言模型視為支持使用導向、漸進語言理論的證據。核心做法：本文指出語言模型亦能實作基於形式結構的理論，即生成語法傳統中的形式化表述，並示範如何用模型檢驗這類假說。主要影響：這擴展了可用語言模型測試的理論範圍，有助於尋找使用導向與生成論的調和路徑。

速報

Qwen3.5 VLM 展示心象能力：多模態模型在視覺推理中「想像」中間畫面

此研究指出，大型多模態模型在解空間視覺謎題時會產生「心象」。研究團隊微調Qwen3.5VLM，讓模型從初始狀態預測解題動作序列，並觀察每步激活是否反映中間視覺狀態。結果顯示，將少量視覺token整合進思考鏈可提高解題成功率，平均從83%提升到89%。

速報

CAMEL 校正：緩解代理式記憶帶來的虛假關聯風險

研究指出代理式記憶讓大型語言模型跨窗保留資訊卻會帶入錯誤關聯。團隊以因果結構定義並基準化幾種虛假關聯，評估記憶對乾淨與受污染輸入的影響。提出CAMEL在寫入與檢索時做校正，能減少對三類虛假模式的依賴並保留乾淨輸入表現。並在針對校正的適應性攻擊下仍展現穩健性。

速報

CT‑IDP：以超過900項表型量化腹部 CT 的新框架

研究利用大規模腹部CT資料建立CT‑IDP影像表型框架。以TotalSegmentator分割多器官，萃取逾900項形態與密度等描述。使用彈性網路稀疏邏輯回歸訓練並凍結規格外部驗證。CT‑IDP在三資料集上宏觀AUC優於視覺變換器基線，顯示穩健性。

速報

FraudBench：AI生成影像的退貨詐欺驗證基準

AI生成影像日益逼真，使以照片為憑的退貨申訴出現新型詐欺。FraudBench以電商、外送與旅遊服務真實用戶影像建庫，透過MLLM輔助篩選與人工標註，並以六種先進生成與編輯模型合成假受損證據。比較大型多模態模型、專用偵測器與人類後顯示：多模態模型對假造破損檢出率普遍偏低，而專用偵測器雖較佳但跨生成器不穩且會誤判。

速報

注意力導向圖神經網路全覽：從圖遞迴注意到圖形轉換器

圖神經網路致力於在低維空間保留拓撲結構以供下游任務使用。本文聚焦注意力機制在圖神經網路的三階段演進：圖遞迴注意、圖注意力網路與圖形轉換器，並逐一比較架構優劣。綜述整理模型特性表並提出未來議題，提供研究者最新參考。並維持中立比較各法優缺點以利後續應用選擇。

速報

大型語言模型解讀個人感測資料的「認知過度」風險（Epistemic Overreach）

研究檢視大型語言模型在解讀個人感測資料時的證據過度主張問題。以三組大學生長期感測資料、三款模型與兩種提示生成大量解釋，並以結構化量表評估因果主張、資料缺口、過度自信等面向。結果顯示模型常在證據不足下推斷原因，有限提示能減緩但無法徹底消除風險。

速報

聯邦強化學習與對齊安全：面向大語言模型的可擴展與可信強化學習

本論文探討強化學習在實務部署的兩大瓶頸：分散式環境下的可擴展性，以及應用於大語言模型與自動代理時的可信任性。作者以聯邦優化為主軸，提出通信高效且可非同步運作的強化學習策略，並研究以人類偏好為導向的對齊方法與減少語境不當資訊揭露的安全措施。