速報
Projection Agents:以潛在動作空間加速圖形組合優化
圖形組合優化問題常因組合爆炸而難以精確求解。研究提出投影代理,在連續的圖神經網路潛在動作空間直接運算,僅以單次前傳預測目標潛在向量,並以簡單最近鄰解碼轉為合法離散動作。實驗顯示推論加速至16.2x,泛化提升約40%,並釋出LaGCO-RL函式庫協助重現與適配。
速報
圖形組合優化問題常因組合爆炸而難以精確求解。研究提出投影代理,在連續的圖神經網路潛在動作空間直接運算,僅以單次前傳預測目標潛在向量,並以簡單最近鄰解碼轉為合法離散動作。實驗顯示推論加速至16.2x,泛化提升約40%,並釋出LaGCO-RL函式庫協助重現與適配。
速報
背景:程式化影片生成被視為可提供幾何與時間一致性的替代方法。該研究推出PRISM基準,蒐集10372組人類校準的指令與程式碼配對,並以四項指標評估執行性、空間推理、提示感知動態複雜度與時間密度。結果顯示從可執行到空間通過率平均下降約41%,突顯可執行性無法代表視覺空間一致性。
速報
量化回測長期受高技術門檻與難以擴展所限。研究提出BacktestBench與AutoBacktest:前者以千萬市場記錄構建大型基準並標註問答,後者以多代理協同將自然語言策略轉為可重現的Python回測。評估指出基準與驗證是提升端到端表現的關鍵。
速報
研究發現低位元量化會保持準確率卻可能破壞模型的反事實可行性。論文提出Counterfactual-FaithfulQuantizationCFQ,訓練量化參數並優化混合精度位元分配。在教師的反事實點強制維持目標決策。並以有效性下降與反事實差距衡量,實驗顯示CFQ匹配準確度下改善指標。
速報
一項來自 ArXiv 的研究指出,目前臨床人工智慧在受控英文資料外表現脆弱。研究以 DenseNet121(CheXNet 架構)在 COVID-QU-Ex 胸部X光集上微調,並用 Fast Gradient Method 製造肉眼難覺察的擾動,結果診斷準確率從89.3%大幅崩落到62.0%。
速報
企業連接內部API受制於代理攜帶憑證導致風險。Anthropic推出自託管沙箱與MCP通道,將工具執行移出代理,並以出站單向閘道和私有連線隔離憑證。此架構把憑證控制移到網路邊界,降低被攻破時的暴露面。編排團隊應先以自託管沙箱測試邊界,再評估MCP通道,以調整威脅模型與部署策略。
速報
事件背景:安全研究者發現CISA在公開GitHub倉庫存有敏感憑證。技術重點:倉庫包含明文密碼、SSH私鑰與存取令牌,且紀錄顯示疑似停用GitHub預設的祕密防護。測試結果:可使用該憑證存取多個AWSGovCloud帳號並取得高權限。影響:凸顯政府憑證治理與資安管理風險。
速報
研究旨在揭示驅動人類視覺神經反應的影像特徵。MINE以可機制性解釋工具定位自然影像中驅動單一體素的視覺內容,並用與語言對齊的影像表示產出語義描述。實驗以合成影像與反事實編輯驗證因果性,結果顯示方法可捕捉細緻腦區選擇性。研究也能在已知類別選擇性腦區中還原細節差異。
速報
研究聚焦語音助理中ASR誤辨如何影響使用者意圖與LLM回應。作者釋出WASIL資料集,含阿拉伯語語音、ASR假設、助理回應與喜好標註,並以多ASR一致性指導產出低成本黃金稿。研究再標註可答性類別以區分內在不可答與ASR導致退化,並讓多評審LLM評估無參照回應,發現ASR錯誤會改變回應品質與用戶喜好。
速報
研究團隊提出 LEAF,一個動態更新的事件增強預測基準,涵蓋未來事件機率、趨勢與時序預測等任務。LEAF 採用遞迴檢索代理系統,並結合雙代理交叉驗證,為預測任務提供相關且即時的輔助文本資訊。作者在多款專有與開放權重的大型語言模型上評估,結果顯示模型能從複雜事件中抽取訊號並提升預測表現;
速報
Google在加州Mountain View舉辦年度開發者大會 Google I/O,會中以最新軟體與人工智慧進展為主軸。預期重點包括專為高階裝置設計的 Gemini 智能功能與任務自動化、Android 17 的新功能,以及延伸至車用與筆電的生態。
速報
自動化法律推理面臨透明度與靈活性的取捨。本研究以Rulemapping方法將大型語言模型納入決定性符號框架,採視覺化邏輯樹操作法律三段論,於德國刑法§130(1)仇恨言論分類測試。結果顯示混合架構在召回與精準度上顯著優於無約束提示。同時保留可稽核性與可驗證決策。