深度分析
新聞增強時間序列預測:結合重要性感知壓縮與過程獎勵模型的框架
本研究針對時間序列預測結合新聞的挑戰,提出重要性感知壓縮與 PRM 引導的補充新聞選取機制,動態分配壓縮預算保留關鍵資訊,兼顧上下文窗口限制與離線訓練的獎勵模型指導,線上僅使用凍結的過濾與壓縮模組,於金融、能源、交通與比特幣基準測試提升預測精度並減少迭代次數,顯著降低計算成本。
深度分析
本研究針對時間序列預測結合新聞的挑戰,提出重要性感知壓縮與 PRM 引導的補充新聞選取機制,動態分配壓縮預算保留關鍵資訊,兼顧上下文窗口限制與離線訓練的獎勵模型指導,線上僅使用凍結的過濾與壓縮模組,於金融、能源、交通與比特幣基準測試提升預測精度並減少迭代次數,顯著降低計算成本。
深度分析
隨著生成式AI讓多模態假新聞更逼真,研究提出CORE框架以衝突導向推理讓大型多模態語言模型具備顯式衝突辨識能力,僅需少量或零樣本即可偵測新型偽造,實驗顯著超越現有方法。核心建構了14k筆衝突屬性語料庫,提供細粒度衝突因子與來源標註,藉此進行衝突感知訓練,提升模型在人類般的語意與物理不一致判斷上表現。
深度分析
AI 驅動研究系統正快速成為自動化發現的核心工具。GAMBLe 框架將此類系統拆解為產生器、評估器、探索機制與預算四個參數,並以有效景觀說明其互動產生的最佳化空間差異。大量實驗顯示,正確的組件配置可在有限預算下提升 13%–67% 效能與 6–39 倍搜尋效率,且不同模型與策略之間並無絕對優劣關係。
深度分析
本研究探討編碼代理在任務交接時產生的「交接債」成本,透過四種交接資訊形式(僅檔案、原始追蹤、摘要筆記、結構化筆記)比較繼任代理的效率與成功率。實驗顯示加入前置上下文可將事件數降低 20%~59%、提示詞減少 42%~63%,雖然解決率提升有限,但大幅降低重建負擔。結構化筆記兼具資訊完整與可審計性,未來或成為 AI 開發流程必備,提升協作效率並降低成本。
深度分析
隨著AI代理人越來越介入決策支援,研究推出BehaviorBench,以真實公開的預測市場交易紀錄建構個人化決策基準,分為信念與交易兩層,實驗顯示加入使用者歷史可提升預測準確度,且不同歷史呈現方式影響表現差異。模型在信念預測上提升約7%,交易方向正確率亦有顯著提升。
深度分析
MOSS-Audio旨在打造同時支援語音、環境聲與音樂理解的統一模型,透過DeepStack跨層特徵注入與時間標記,提升多任務表現,於多項基準測試中達到領先成績。模型提供4B與8B兩種規模,分別針對指令執行與深度推理優化,顯示統一音訊模型在未來語音助理的基礎建設上具備可擴展性。
CheetahClaws
SafeRL-Lab推出的CheetahClaws為Python原生的AI代理框架,支援多模型與工具使用,提供快速安裝與QQ、Telegram等即時通訊橋接。透過安全加固與守護程式設計,提升系統穩定性與資料保護。此專案已獲711顆星,預計加速長期任務與多模型協同開發。
Android AI
llmedge 是一套以 Kotlin 撰寫的輕量 Android 原生 AI 推論庫,透過 llama.cpp 的 JNI 介面在裝置上直接執行 GGUF 格式的語言模型。它內建模型下載與快取機制,支援低階設備的 ModelPresets,並提供 Safetensors 轉 GGUF 的即時量化功能。
Open‑SWE
LangChain 推出的 Open‑SWE 為企業內部程式碼代理提供開源實作,結合 LangGraph 與 Deep Agents,支援 Slack、Linear 呼叫與自動 PR,並內建雲端沙盒與子代理編排,讓企業可效仿 Stripe、Ramp、Coinbase 的內部自動化流程,降低自建成本與維運門檻。
Emdash
Emdash 是由 generalaction 在 GitHub 上維護的開源專案,定位為 Provider‑agnostic 的 Agentic Development Environment(ADE),能在本機或遠端主機上同時啟動多個 AI 編碼代理,每個代理在獨立的 git worktree 中執行,確保環境隔離。
深度分析
研究提出以資訊理論為基礎的「Decan」多樣性指標,透過單次前向傳遞取得每位元驚訝度,無需嵌入模型或人工標註。實驗在McDiv基準與OLMo‑2‑7B後訓練流程上均展現與人類判斷相近的表現,並偵測到RLHF導致的多樣性下降,此指標亦可用於比較不同解碼策略的多樣性貢獻。
Claude Code
Claude Code近期出現一套專注於影片製作與公众号寫作的開源skill集合,支援轉寫、翻譯、配音、多機位剪輯與字幕生成,可直接於Claude Code或相容的Codex CLI呼叫,提升內容創作自動化,對台灣創作者與開發者的工作流程產生即時效益。