深度分析
自適應承諾深度:在 VLM 中學習何時重規劃以優化長程視覺推理
長程視覺語言推理需決定何時重新規劃。本文讓承諾深度成為模型內可學習變數,由單一VLM同時預測執行動作與持續步數,實驗在SlidingPuzzle與Sokoban展現顯著效能提升。結果在多種決策預算下顯示自適應承諾在成功率與行動效率間取得更好平衡。值得進一步研究
深度分析
長程視覺語言推理需決定何時重新規劃。本文讓承諾深度成為模型內可學習變數,由單一VLM同時預測執行動作與持續步數,實驗在SlidingPuzzle與Sokoban展現顯著效能提升。結果在多種決策預算下顯示自適應承諾在成功率與行動效率間取得更好平衡。值得進一步研究
深度分析
工程建構自動化需將自然語言規格轉為具物理可行的結構。BuildArena提出首個以物理驗證與互動模擬為核心的3D建構基準,結合任務分級、空間幾何運算庫與LLM代理流程,用以比較模型在不同難度之建構能力。實驗顯示高難度普遍降低模型表現,但仍有部分模型展現相對優勢,為語言驅動工程評估提供新工具。
深度分析
系統文件常把專家結論寫成靜態建議,卻未記錄專家如何思考與量測,導致建議隨硬體、工作負載與版本演進而失效。PerfEvolve 提出把專家調校方法轉為可執行的程序化技能:先離線做敏感度降維與參數拓樸發現,再把結果生成步驟化文件,讓基於大型語言模型的代理在部署端執行有針對性的剖析與聯合優化。
深度分析
GitHub 於 5 月 20 日證實,一個被下毒的 VS Code 外掛在員工裝置上執行,讓攻擊者存取約 3,800 個 GitHub 內部倉庫。攻擊群組 TeamPCP(又稱 UNC6780)被指為主謀,並將竊得的倉庫掛牌出售。
深度分析
Counterfactual Regret Minimization(CFR)是求解大型不完美資訊博弈的主流演算法,過去成果包括多款超越人類的撲克系統。本文介紹 Parallel CFR,一個專為即時深度限制(depth-limited)CFR 求解設計的平行化框架。
深度分析
美國建築業死亡率居高不下。本研究提出被動式下班影像監測流程,串接精調YOLO、SAM3與Qwen3-VL三階段檢測,利用角色化三回合對抗性思考鏈降低視覺語言模型幻覺,將違規對應OSHA條款並輸出逐工時證據報告,開發者於開發語料觀察到精準度提升。
深度分析
研究以德國民法典為基準,評估多種文本切塊策略在檢索增強生成(RAG)中的表現。比較結構化分段、固定窗口、語義分群、Lumber與RAPTOR等方法,並衡量召回、延遲與索引成本。結果顯示保留法條結構的分節或小節檢索能顯著提高Recall,且計算與存儲效率更佳。
深度分析
本文提出「可及性能力邊界(ACB)」概念,將可及性視為多維能力空間而非二元合規。作者分析以單檔 HTML 為載體、結合瀏覽器標準 API 與本地推論(WASM、MediaDevices、Web Speech API)的 AI 生成輔助系統,並以上述架構為基礎,透過兩個實驗性原型(包含一個為視障者設計的相機對準助手)驗證可行性。
深度分析
研究關注矩陣式參數的優化與泛化問題,Muon以正交化梯度加速收斂但泛化上受限;MiMuon採混合策略、在有足夠奇異值分離時使用正交化、否則採常規梯度,理論上將泛化誤差降為O(1/N),並保有與Muon相當的收斂率,實驗於大型模型上驗證其效能。
深度分析
CAPTCHA長期阻礙多模態代理於網頁自動化的實務應用。本研究提出CaptchaBench與CaptchaMind,結合含流程註解的訓練資料與以強化學習加顯式推理監督的解法,實驗在八類任務上平均成功率達82.9%,對真實樣本也達71.0%。
深度分析
CutVerse 針對專業影像後製提出以人類等價操作為基礎的 GUI 代理基準,整合 7 款專業軟體與 186 項長程任務,並以螢幕錄製解析器與標準化 Windows VM 量化代理在像素級空間定位、跨模態對齊與組合式操作的能力;實驗顯示現有模型在長程可靠性與專業規劃上仍存在明顯短板。
深度分析
視覺地點辨識(VPR)對自主導航至關重要,但現有方法多半缺乏可校準的不確定性估計。KappaPlace 提出一個 Prototype-Anchored 的監督策略,將影像描述視為超球面上的 von Mises-Fisher 分布,並以輕量化模組預測集中度參數 κ 作為數據性(aleatoric)不確定性代理。