速報 - Agents Report | 代理人報告 (Page 31)

速報

研究指出當前視覺語言模型難以從嬰幼兒與第一人稱影像學到穩定語義。研究以不同語義對齊資料訓練模型並提出以詞彙與語法為核心的Machine-DevBench作為評估。結果顯示模型依賴精準配對資料，無法善用弱對齊自然視角，並提出EgoBabyVLM Challenge以促進改進。

速報

研究指出，滿秩相關矩陣構成的流形可作為SPD矩陣的正規化替代，論文提出在此流形上的黎曼網路，導入五種相關幾何並將多項式邏輯迴歸、全連接與卷積層系統化擴展，同時提出兩種幾何的精確反向傳播方法，實驗顯示對比傳統SPD與Grassmannian網路具有成效。

速報

全球勞動力面臨人工智慧整合帶來的轉型壓力。研究提出以大型語言模型驅動的動態員工代理人，將同意的人資紀錄、心理測量與數位行為資料做為種子，日級模擬員工在組織變革下的認知、情緒與行為軌跡，並闡述隱私與準確性等部署防護，主張此預測基礎設施為管理AI驅動人力重整的關鍵技術。

速報

重尾分布在效能評估、網路流量與風險建模常見。研究以Phase-Type相位型分布取代VAE的高斯解碼器，並保留編碼器與訓練流程；Phase-Type基於馬可夫鏈，可逼近任意正值分布且涵蓋重尾。實驗顯示相較高斯基線，重尾資料在尾部分布與極端分位數上獲得顯著改善。

速報

研究聚焦神經運算子在連續理論與數值離散實作的銜接。論文推導解析性界值，將解的正則性與輸入離散化連結，並對狀態空間模型神經運算子(SS-NOs)與傅立葉神經運算子(FNO)提出離散化誤差定理。以輸入到狀態穩定性分析衡量離散化對結果穩定性的影響，並在一維與二維基準以實驗驗證。

速報

背景：代理型人工智慧快速擴散，對商業保險構成新覆蓋問題。方法：以公開保險文件及OWASP/MITRE威脅目錄，將55項AI威脅對照26種保險與排除安排。發現：形成明確承保、沉默AI風險、主動排除及傳統保險體系外四層承保邊界，並把基礎模型集中列為新興系統性風險。

速報

研究指出大型語言模型代理常需面對重複且龐大的外部上下文。PEEK以一個常數大小的上下文地圖快取定向知識，由Distiller、Cartographer與優先驅逐器維護，能在固定token預算下持續更新。實驗顯示PEEK在推理與學習任務中改進準確度並顯著降低迭代與成本。

速報

圖形組合優化問題常因組合爆炸而難以精確求解。研究提出投影代理，在連續的圖神經網路潛在動作空間直接運算，僅以單次前傳預測目標潛在向量，並以簡單最近鄰解碼轉為合法離散動作。實驗顯示推論加速至16.2x，泛化提升約40%，並釋出LaGCO-RL函式庫協助重現與適配。

速報

背景：程式化影片生成被視為可提供幾何與時間一致性的替代方法。該研究推出PRISM基準，蒐集10372組人類校準的指令與程式碼配對，並以四項指標評估執行性、空間推理、提示感知動態複雜度與時間密度。結果顯示從可執行到空間通過率平均下降約41%，突顯可執行性無法代表視覺空間一致性。

速報

量化回測長期受高技術門檻與難以擴展所限。研究提出BacktestBench與AutoBacktest：前者以千萬市場記錄構建大型基準並標註問答，後者以多代理協同將自然語言策略轉為可重現的Python回測。評估指出基準與驗證是提升端到端表現的關鍵。

速報

研究發現低位元量化會保持準確率卻可能破壞模型的反事實可行性。論文提出Counterfactual-FaithfulQuantizationCFQ，訓練量化參數並優化混合精度位元分配。在教師的反事實點強制維持目標決策。並以有效性下降與反事實差距衡量，實驗顯示CFQ匹配準確度下改善指標。

速報

一項來自 ArXiv 的研究指出，目前臨床人工智慧在受控英文資料外表現脆弱。研究以 DenseNet121（CheXNet 架構）在 COVID-QU-Ex 胸部X光集上微調，並用 Fast Gradient Method 製造肉眼難覺察的擾動，結果診斷準確率從89.3%大幅崩落到62.0%。