深度分析 - Agents Report | 代理人報告 (Page 69)

深度分析

小型模型 Qwen2.5‑7B 透過 CoT 蒸餾與 LoRA 微調在數學競賽題上突破 69% 正確率

本研究利用JohnO’Bryan數學競賽題庫，將DeepSeek‑R1大模型的思考鏈以CoT方式蒸餾至Qwen2.5‑7B，透過LoRA早停微調將正確率提升至69.43%，在MATH‑500上達73.1%。實驗顯示，回應字數低於約50‑100詞會使正確率跌至41.9%，且約40%錯誤源於格式問題，提示可透過後處理提升效能。

深度分析

彎曲指導結合模組定位與低秩修復：快速除毒大型語言模型後門的新方法

隨著大型語言模型普及，後門攻擊成為重大威脅。研究提出彎曲指導的模組定位結合低階矩陣修復，只針對關鍵模組去除觸發行為，實驗在Llama‑3.2‑1B‑Instruct上大幅抑制惡意回應且保留正常功能。方法以激活貼補與Fisher/K‑FAC曲率定位高影響模組，再以低秩適配器修復，較CROW表現更佳，預示未來能快速除毒而不損效能。

深度分析

基於自監督 Wav2Vec2 的即時音訊深偽偵測：在瀏覽器本機保護隱私與提升效能

隨著生成式語音技術普及，音訊深偽成為媒體與事實查核的威脅。研究者以截斷的自監督模型Wav2Vec2結合輕量線性分類器，於瀏覽器內即時偵測，提升準確度10%並加速40%。在六組跨領域測試資料中，平均錯誤率降至8.4%，顯著優於傳統CNN模型。此方案兼具隱私與效能。

深度分析

Claude AI 協助發現 Front Gate 票務系統超級管理員 SQL 注入漏洞

安全研究員 Ian Carroll 使用 Claude Opus 4.7 發現 Front Gate 票務平台的 SQL 注入缺陷，藉由 AI 產生的繞過防火牆腳本取得超級管理員權限，能自由發放任何音樂節票券。公司在回報後 24 小時內修補漏洞，未見資料外洩。此事件突顯 AI 在漏洞挖掘上的威力與票務安全的脆弱性。

深度分析

「LUMOS」：AI 代理人專用語意作業系統層，結合可存取性 API 與 UI Automation

隨著AI代理人逐漸進入桌面環境，傳統作業系統僅提供視覺介面。LUMOS透過可存取性與瀏覽器DOM轉換為機器可讀的語意藍圖，並支援即時指標定位。實驗顯示此方法可減少螢幕截圖需求、降低延遲，為AI原生作業系統鋪路。LUMOS不取代螢幕視覺代理，而是提供穩定的元素識別與安全的執行介面。

深度分析

「ALM2Vec」：基於音訊大型語言模型的通用音訊檢索向量框架

隨著音訊資料庫規模擴大，檢索需求提升。研究推出基於音訊大型語言模型的ALM2Vec，能在統一向量空間中支援音效、語音與音樂的跨模態檢索，並可依指令調整檢索焦點。實驗顯示其在音訊與語音檢索基準上達到或接近最佳表現，為未來多樣化音訊應用領域奠基。

深度分析

AxDafny：結合 AI 程式生成與 Dafny 形式驗證的迭代框架

本報導介紹 AxDafny，一個以 Dafny 為平台、透過驗證回饋迭代修正的程式與證明自動生成框架。研究同時發布 LCB‑Pro‑Dafny 基準，涵蓋 250 題競賽式問題，測試模型在程式合成與證明合成上的表現。

深度分析

CSTrader：多代理大型語言模型在 CS2 皮膚交易測試平台的實驗結果與分析

研究以CS2皮膚市場為測試床，利用多代理大型語言模型將社群文字轉為交易指令，結合技術、流動性與情緒訊號，實驗在劇烈波動期間仍能取得正向報酬。相較於傳統量化模型，CSTrader 透過逆向情緒與流動性代理提升穩定性；平台或成為AI 代理人在虛擬經濟與小眾資產的驗證環境，預示金融AI向細分市場擴展。

深度分析

CDR‑Bench：評估大型語言模型在資料精練流程的程序忠實度與順序感知

隨著生成式AI在資料前處理的需求提升，研究團隊推出CDR-Bench以測試大型語言模型在多步驟、順序敏感的資料精練食譜執行能否忠實。基於3,462筆跨四領域任務與29種運算子，評估模型在原子、無序與順序敏感三種設定下的表現。結果顯示，多數模型在組合與順序測試中成功率低於5%，凸顯程序忠實度仍是未解決的瓶頸。

深度分析

集合理論結合稀疏二進位向量的拓撲聯想記憶：打造能源高效 AI

本篇報導聚焦於以集合理論與超維度運算為基礎的稀疏二進位 AI 架構，提出以拓撲聯想記憶取代傳統連續權重的計算模式，並說明其在能效與記憶檢索上的優勢，預示未來人工智慧可能朝向更接近生物腦的方向發展研究顯示此架構在記憶查詢時間上與儲存規模無關，且可直接映射至記憶內部硬體，為降低 AI 能耗提供新路徑。

深度分析

Arena‑T2I Hard 基準與依存檢查清單：提升文本生成影像模型忠實度與美感的雙重方案

隨著文本生成影像模型進入實務工作，單一美感評分已不足以衡量忠實度。研究推出Arena‑T2I Hard基準，收錄310筆實際複雜指令，並以依存檢查清單將每項約30個是/否約束分解為DAG，結合美感BT獎勵的正規化訓練，使模型在忠實度與美感上同時提升，此方法在SD3.5‑Medium與FLUX.1‑dev上的MMRB2配對測試中，分別超過單一獎勵與四獎勵基線5%以上。

深度分析

LuckyStar 111B：多語言混合推理與工具使用的 4 位元量化企業代理人模型

在記憶與服務資源受限的企業環境中，LuckyStar 111B 透過前置詞條切換提供推理與非推理模式，結合多語言微調、可驗證獎勵強化工具使用，並以4位元量化支援單卡部署。實驗顯示其在數學推理、函式呼叫與NL2SQL任務上超越基礎模型，且保持韓英指令遵循品質。