深度分析 - Agents Report | 代理人報告 (Page 16)

Infographic explaining Random Logit Scaling (RLS) defense against black-box AI attacks.

深度分析

RLS 隨機對數縮放降低黑箱分數式攻擊成功率：實驗與跨領域應用分析

隨機對數縮放（RLS）作為後處理防禦，透過隨機放大模型 logits 產生偽造分數，擾亂黑箱分數式攻擊。實驗在 CIFAR‑10 與 ImageNet 表現，將攻擊成功率最高降低 80%，且幾乎不影響準確率。較以往的隨機噪聲防禦，RLS 同時提升了對 Square、Bandit 攻擊的抵抗。

Infographic analyzing Large Audio Language Models for anti-spoofing speaker verification.

深度分析

大型音訊語言模型 (SALMONN‑7B、Qwen2‑Audio‑7B) 在防偽說話驗證任務的實驗分析

近年文字轉語音技術成熟，威脅語音驗證安全。研究將大型音訊語言模型應用於防偽說話驗證，透過 LoRA 微調、損失函數調整與推理監督，取得與傳統融合系統相當的準確度，同時比較了多音訊輸入與串接方式的效能差異，並預測此技術將降低邊緣裝置部署門檻，促進開源生態與商業化應用。

深度分析

LLM 直接從研究論文生成 MaxSAT 求解器：CoreForge 的迭代開發與效能評估

針對約束求解器開發的高門檻，CoreForge 嘗試利用 LLM 直接將 MaxSAT 研究論文轉譯為 C++ 程式碼。該流程透過 ChatGPT 規劃、Codex 實作並結合反覆審核與基準測試，成功建構出包含 OLL 演算法與創新前瞻機制的求解器。結果顯示 LLM 能有效處理高層演算法轉譯，雖效能未達頂尖水平但能確保正確性，證明 AI 輔助理論實作的可行性。

Infographic detailing VideoSEMA architecture for efficient video understanding.

深度分析

VideoSEMA：以 Mamba-like 結構優化視訊理解的運算效率

針對視訊理解中運算成本過高的挑戰，研究團隊提出 VideoSEMA 模型。該技術採用空間-時間分離注意力框架，在空間端導入類 Mamba 的 SEMA 模組以降低複雜度，時間端則維持標準注意力機制。實驗顯示，VideoSEMA 在 K400 與 SSv2 數據集上的準確率優於同規模的 Transformer 與 Mamba 模型，且能更穩定地處理高解析度視訊輸入。

Infographic on running MiniCPM-V-4.6 model fully on legacy NVIDIA Tesla C2075 GPU.

深度分析

MiniCPM‑V‑4.6 在 2011 年 NVIDIA Tesla C2075 (Fermi) 上全 GPU 執行的效能突破

研究團隊在 2011 年的 NVIDIA Tesla C2075 GPU 上成功部署現代多模態助理 MiniCPM-V-4.6。透過手寫 CUDA 核心、利用舊版 cuBLAS 庫優化矩陣乘法，以及開發階段驗證移植法，克服了缺乏 Tensor Core 與 FP16 的硬體限制。最終在 10k token 長文本下維持高效能，單圖問答僅需 1.7 秒，展現了極限硬體上的模型優化潛力。

深度分析

子族群層面公平增強演算法與差分隱私效應分析：機器學習模型的隱私風險評估

機器學習在醫療、執法與金融等敏感領域需兼顧效能、公平與隱私。研究改編LikelihoodRatioAttack以子族群審核，揭示不同公平增強方法對成員推論風險的影響，發現隱私風險並非一致上升，且差異受模型結構、子族群大小與差分隱私配置左右。

Infographic on Gate-Zero Growth enabling zero-forgetting expansion in Transformers.

深度分析

利用 Gate‑Zero Growth 於 Transformer 實現零遺忘的增長與函數保留

隨著語言模型規模持續擴大，研究提出Gate‑ZeroGrowth以零門控方式在持續學習中保留函數。該方法透過零初始化門將新殘差塊加入模型，理論保證舊參數不變且新參數在成長點平坦。實驗顯示在300M→857MTransformer上幾乎零遺忘，優於未使用零門控的基線。

A visual diagram that shows how the 'Rekal' Git-based AI memory engine works, including its three modes, its Git commit chain, and its secure database.

深度分析

Rekal：以 Git 為基礎的記憶引擎提升 AI 助手開發決策追溯

在軟體開發的代理人開發生命週期（ADLC）中，程式碼變更被 Git 紀錄，但設計背後的討論往往只留在 AI 助手的對話視窗，易於遺失。Rekal 透過 Git 綁定的帳本（ledger）把會話、工具呼叫與檔案路徑與 commit SHA 連結，並提供結構圖、分段回溯與決策合成三種模式，由路由器自動選擇最適回應方式。

深度分析

LIFT：透過反應式力量注入提升視覺語言動作模型在接觸操作的效能

預訓練的視覺語言動作模型缺乏接觸感測，導致在遮蔽或深度不確定時表現受限。LIFT 透過因果力量記憶與零初始化跨注意力，在後訓練階段加入反應式力量注入，並結合線上 DAgger 修正。實驗顯示在毛巾折疊、書本插入與河內環擺放三項任務上，LIFT 的學習速度與最終表現均優於僅視覺的後訓練。

深度分析

「SeeSE3」：自監督視覺基礎模型中隱含的 SE(3) 空間結構探討

研究探討視覺基礎模型是否能在僅被動圖像輸入下自發形成與 SE(3) 變換群一致的三維空間結構，透過拓撲對齊與 Poincaré 適配器測試，結果顯示自監督模型可在潛在空間中解碼相機運動，為無重建視覺導航提供新方向。跨模型比較指出 DINOv2、DINOv3 的對齊分數接近專門幾何模型，顯示被動學習亦能捕捉空間同質性。

深度分析

C3R：利用 Conformal Prediction 提升多領域檢索的汙染控制與可靠性

多領域檢索常因返回錯誤領域文件而增加風險，C3R 以推論領域後驗機率提供每領域汙染上限認證，支援異質預算與軟降分機制，對於無標籤查詢在不可保證時自行放棄，實驗在包括公共法規資料的多樣測試集上皆未違背認證，同時相較於最嚴格的硬過濾保留更高召回率，顯示在受規範限制的產業應用具實務價值。

深度分析

飽和現象與逃逸條件：三層結構干預模型於LLM、強化學習與貝式最佳化的應用

研究探討閉環知識系統在持續回饋下的飽和現象，提出三層操作框架以結構參數θ區分內部迭代與外部干預，並以度量條件與KL界定逃逸可能性，實驗顯示在LLM程式修復、稀疏回饋強化學習與貝式最佳化中提升品質。此框架亦提供跨領域診斷工具，協助開發者設計可驗證的結構干預，預測AI系統在長期迭代中的表現走向。