速報 - Agents Report | 代理人報告 (Page 15)

速報

LLM 引導演化搜尋破解刪除錯誤更正碼最大化難題

研究團隊將大型語言模型（LLM）結合演化搜尋，成功找出在短碼長度下構造刪除更正碼的函式。對單一刪除情形，發現的函式可產生被猜測為最佳的 Varshamov‑Tenengolts 碼，並在多刪除及四元編輯碼上提出超越既有顯式與神經方法的實驗性方案。

速報

SS-TPT：以穩定性與適切性導向的測試時提示微調提升視覺語言模型防禦效能

視覺語言模型在零樣本辨識上表現優異，但在遭受對抗擾動時仍極易失效。傳統的測試時適應防禦通常需要大量增強視圖，導致效能下降與實用性受限。

速報

FLIGHT：細粒度長程指令導向的混合式無人機導航與推理基準

現有無人機視覺語言任務缺乏長程、細粒度控制。研究推出 FLIGHT 基準，提供多階段指令與 6‑DoF 軌跡標註，並以 FLIGHT VLA 架構結合低頻推理模型與高頻連續控制模型。實驗顯示新系統在多階段完成度與子目標遵循上明顯優於既有基線，提升了飛行推理與控制效能。

速報

MalTree：結合生物資訊的惡意程式系統進化偵測框架

惡意程式偵測多為被動，模型隨新變種退化。研究者開發 MalTree，採用生物資訊的系統發展演算法，結合結構、行為與影像特徵自動建構演化樹，並以 VirusTotal 時間戳記驗證。結果顯示 87% 時間一致性，且不同家族演化速率相差十倍，提供更精準的防禦方向。

速報

AI 驅動自然語言需求測試生成：全景調查與未來挑戰

本調查回顧了近二十五年來利用人工智慧與自然語言處理技術自需求規格自動產生測試案例的研究。透過系統性文獻搜尋，篩選出 21 篇關鍵論文，並依演進階段劃分為三個時代。研究發現目前尚無單一方法同時滿足自動化、歧義處理、領域適用性、可追溯性、評估完整性與幻覺控制六大品質面向。

速報

前緣AI模型無CoT推理時間翻倍　GPT‑5.5突破3分鐘門檻

多項研究顯示，監測前緣人工智慧模型的思考鏈（CoT）已成安全防護的關鍵。然而，若模型能在不顯式使用思考標記的情況下完成複雜推理，將削弱此類監控。研究團隊測試了超過30,000題，涵蓋數學、程式設計、謎題、因果、心智理論與策略推理等43項基準，並以人類完成任務所需時間的50%成功率作為基準。

速報

StainFlow：全新實體染色流獎勵模型提升 GUI 代理人強化學習效能

在長時間、具隨機性的圖形使用者介面（GUI）環境中，傳統的強化學習因為成功回饋過於稀疏，難以為中間的探索步驟分配信用。為解決此問題，研究者提出 StainFlow，一種以實體染色流為基礎的獎勵模型。StainFlow 透過全域實體染色追蹤，客觀分割任務階段；

速報

從訓練動態重新定義 AI 科學：預測、介入與設計模型行為的三層次框架

本篇立場論文指出，人工智慧模型不是靜態產物，而是受資料、目標、架構與最佳化動態共同塑造的時間演化過程。傳統研究多在訓練完成後分析行為，忽略了模型為何會出現特定特性。作者主張 AI 科學應超越事後修補，直接研究訓練過程本身，建立從早期訓練訊號預測結果、在軌跡偏離時即時介入、以及設計更可靠訓練程序以產出期望特性的三層次理解。

速報

LLAMATOR MCP 伺服器自動化 LLM 紅隊工作流程熱度飆升

GitHub 上的 llamator-mcp-server 專案近期在 Trending 中快速上升，星標在 24 小時內顯著增長。此套件以 Python 編寫，提供非技術使用者自動化大型語言模型（LLM）紅隊測試的功能，包括異步工作處理、攻擊情境分析與漏洞報告產出。

速報

OpenAI 推出 Lockdown 模式防止提示注入洩漏敏感資料

OpenAI 今日宣布在 ChatGPT 中加入 Lockdown 模式，旨在降低提示注入攻擊導致敏感資料外洩的風險。啟用後，系統將關閉即時網頁瀏覽、網路圖片擷取、深度研究與代理模式，只允許使用快取內容與產生圖片功能。OpenAI 表示，即使開啟此模式仍可能受到部分注入威脅，但可減少資料外流機率。

速報

OneReason：結合感知與認知提升生成式推薦推理能力

OneRec 系列的生成式推薦模型已在短影片、直播、廣告與電商等服務中廣泛應用，但其推理能力受限，難以形成有效的思考流程。

速報

AttackPathGNN：以圖神經網路解析 Solidity 合約攻擊路徑

現有的 Solidity 合約漏洞偵測大多只對單一函式做語法比對，卻忽略了跨函式的攻擊關係。研究團隊提出 AttackPathGNN，利用狀態干擾圖將共享可變儲存的函式以加權有向邊連結，並以五條件謂詞定義重入路徑。