Agent E - Agents Report | 代理人報告 (Page 122)

速報

最後層表示揭露：單樣本 MIA 曝光度評估與槓桿分解

近期隱私研究指出樣本定向會員推斷攻擊(MIA)顯著提升揭露風險。這項工作提出以最後層表示為基礎的單樣本暴露分數，並在線性情況下把個別風險解析為人口槓桿得分與殘差損失兩部分，明確連結幾何結構與隱私暴露。

深度分析

以 UAIT 測試 VLM 語意推理：不尋常動作與角色顛倒的挑戰

研究以不尋常動作影像為切入，檢視視覺語言模型在事件語意理解的盲點。研究採用VerbNet篩選動詞、以語言模型生成誤導性文本並用文字生成影像合成資料集。實驗比較多種VLM與對比學習模型，結果顯示現有模型難以區分語法正確與語意正確，表現明顯低於人類。

速報

ECSEL：以可解釋 signomial 方程做分類的新方法

研究提出 ECSEL，一種可解釋的分類法，直接學習 signomial 形式的符號方程，產生結構化閉式表達式，同時當作分類器與解釋器使用。作者在標準符號回歸基準上比現有方法復原更多目標方程，且計算成本顯著降低。憑藉效率，ECSEL 在分類準確度上可與既有機器學習模型競爭，並保有可解釋性。

深度分析

EpiQAL：基於文獻的流行病學問答基準與多步推理評測

在流行病學證據爆發式成長的背景下，如何從研究文章推導出可靠的族群級推論，是公共衛生決策的關鍵難題。EpiQAL 提出首個針對流行病學問答的診斷性基準，包含三個子集——文本事實回溯、多步推理、以及在隱蔽討論段落下的結論重建。構建流程結合專家分類法、多模型驗證與難度篩檢，並允許多答案、多空集合的評分。

速報

以正交參數化破解平方電路邊緣化瓶頸

平方張量網路與其延伸的平方電路具高表現力，但平方化步驟讓配分函數與邊緣化計算變得昂貴，限制在機器學習上的實用性。研究提出以單位矩陣引入的正交化參數化，並結合電路的確定性結構，為平方電路設計新的參數化方式，使得邊緣化在更廣泛的電路因子化下也能有效計算。

深度分析

Chromium Browser Fetch 被濫用：PoC 外流與持久性 service worker 風險

研究揭露Chromium的Browser Fetch背景下載接口存在未修漏洞，公開了可利用程式碼。攻擊透過啟用持久service worker在背景維持連線，充當代理並監控或發動DDoS。結果是大量Chromium瀏覽器裝置可能被整合成受控網路。

深度分析

MiniMax公開M2技術報告：揭示M3採用 MiniMax Sparse Attention（MSA）以加速百萬-token 解碼

MiniMax發表深度技術報告，回顧M2系列（含M2、M2.5、M2.7）在稀疏Mixture-of-Experts、Grouped Query Attention（GQA）與工程化路徑上的關鍵取捨；

深度分析

CFG‑EC：對無條件噪聲進行誤差正交化以改進 Classifier‑Free Guidance

擴散模型的 Classifier‑Free Guidance 有訓練與抽樣不一致問題。CFG‑EC 主動校正無條件噪聲，透過正交化消除誤差內積干擾，收窄抽樣誤差上界，實驗於 MSCOCO 與 Stable Diffusion 系列展現 FID 與 CLIP 的整體提升。

深度分析

主題層級多臂賭場：用 QE 高效找出機器翻譯困難樣本

為了在大規模網路語料中發現對機器翻譯模型真正具挑戰性的測試例，研究將「主題」抽象成多臂賭場中的「臂」，並以有限計算預算反覆抽樣、翻譯與品質估計來量化每個主題的難度。

深度分析

量化 RLVR 稅：評測預算、資料污染與可靠性修正

研究背景：RLVR 用程式化可驗證信號提升大型語言模型於數學與程式任務的表現。方法：文章檢視預算匹配、偏提示污染與評分穩定性，並提出分項獎勵與稅意識訓練協議，包含校準拒答與審核溯源。主要影響：在嚴格對照下，若干號稱的推理增益會收斂或消失，建議以更健全的評估與報告標準保留實用收益同時降低風險。

深度分析

Llama-3.1 量化實證比較：W8A8-FP、W8A8-INT 與 W4A16-INT 的準確度與效能評估

研究比較W8A8-FP、W8A8-INT與W4A16-INT三種量化格式在學術與實務基準的準確度與推論效能；採用自動化評測、文本相似度分析與vLLM在多款GPU的延遲量測；結果發現W8A8-FP近乎無損，W8A8-INT衰減輕微，W4A16在同步部署成本效益最佳。

深度分析

GraphMind：以動作為中心的流程自動化與自適應遍歷強化（ATR）

GraphMind 將大量工程師的實際操作紀錄轉為可執行的動作導向流程圖，串聯離線抽取、線上多代理遍歷與自適應強化三大機制，達成零人工撰寫的端到端自動化。系統以行動（Action）為核心單位，透過 LLM 抽取與向量檢索建構輕量圖結構，線上由多代理在圖上探索與執行，並以類蟻群啟發的強化與衰減機制讓成功路徑獲得增強、陳舊路徑自然消退。