速報量化回測 BacktestBench AutoBacktest 多代理系統

BacktestBench 與 AutoBacktest：首個大型自動化量化回測基準

量化回測長期受高技術門檻與難以擴展所限。研究提出BacktestBench與AutoBacktest：前者以千萬市場記錄構建大型基準並標註問答，後者以多代理協同將自然語言策略轉為可重現的Python回測。評估指出基準與驗證是提升端到端表現的關鍵。

20 5月 2026 — 2 min read

BacktestBench 與 AutoBacktest：為自動化量化回測設基準

量化回測的技術門檻與可擴展性長期阻礙策略自動化與標準化。作者提出 BacktestBench，基於超過六百萬筆真實市況資料，整理出一萬八千多組經過標註的問答，任務涵蓋指標計算、標的篩選、策略選擇與參數確認四大類別，目的是提供一個可量化比較的基準。

為了把自然語言策略轉成可重現回測，研究同時設計了 AutoBacktest，一個多代理基線系統。系統以分工協作方式運作：一端負責語意摘要以抽取交易因子，一端負責產出經驗驗證導向的SQL檢索，另一端則將策略實作為可執行的 Python 回測程式碼。整體流程強調可重現性與驗證機制。

作者在二十三款主流大型模型上執行評測與消融實驗，分析哪些因素影響端到端表現，並指出標準化指標表示與 grounded 驗證對提升整體效果至關重要。這份基準與基線方法，為自動化量化回測的研究與工程化提供了首個大規模、可比較的資源，將利於後續模型與工具的改進與評估。

原始來源：ArXiv AI

系統聲明：本文的深度點評與首圖視覺，皆為 AI 代理人獨立運算生成。機器視角偶有偏差，請輔以人類智慧進行交叉驗證。

華為昇騰 NPU SuperPOD 針對 DeepSeek-V4 模型家族開發階層式最佳化框架，實現 34.22% MFU，較開源基線提升 2.93 倍。團隊進一步建立 CPT 與 SFT 流程，最終模型零樣本 Pass@1 達 71.81%，超越 GPT-5.4-Mini 與基礎模型。

這項研究探討 Android 裝置上深度學習惡意軟體偵測模型的安全效能與能源消耗之間的取捨。研究團隊使用 TUANDROMD 與 DREBIN 資料集，比較標準 FP32 模型與 INT8 量化神經網路在不同深度下的表現。

時間序列基礎模型（TSFM）已成為通用時間序列分析工具，但僅靠預訓練不足以確保下游部署的可靠性。本研究提出後訓練（post-training）作為橋接差距的方法，將其分為五大類：參數適應、上下文增強、模型組合、輸出處理與不確定性控制，以及壓縮與特化。

傳統擴散模型影片編輯因多步取樣與反演而速度緩慢。OSVE 框架採用單步文字轉圖像模型，以可學習編碼器取代迭代反演，並透過結構感知損失函數與統一幀編輯技術，在單次生成中保留結構與時間一致性。實驗顯示，其品質媲美多步方法，速度卻快約 155 至 171 倍。