深度分析
Iteris 代理式 AI 系統:以 explore‑plan‑execute 流程突破計算數學開放問題
計算數學的開放問題長期需要結合數值實驗與證明構造。研究團隊推出 Iteris 代理式研究系統,以 explore‑plan‑execute 迴路自動生成數據、構造與證明草稿,經專家修正後得到兩項新結果:CG 與隨機座標下降在冪律譜上的相位圖,以及 QR 分解在低相干情況下的反例。此案例顯示 AI 能在數學工作流中提供實質助力,但仍需人工驗證。
深度分析
計算數學的開放問題長期需要結合數值實驗與證明構造。研究團隊推出 Iteris 代理式研究系統,以 explore‑plan‑execute 迴路自動生成數據、構造與證明草稿,經專家修正後得到兩項新結果:CG 與隨機座標下降在冪律譜上的相位圖,以及 QR 分解在低相干情況下的反例。此案例顯示 AI 能在數學工作流中提供實質助力,但仍需人工驗證。
深度分析
本研究以OpenEvolve探討LLM輔助的張量網路收縮順序最佳化,使用開源LLM生成程式變異並以驗證指標驅動演化。實驗顯示模型選擇與測試資料、評估指標皆顯著影響結果,並提出未來AI演算法搜尋對科研流程與軟體工程的潛在衝擊。與AlphaEvolve比較,OpenEvolve更彈性。
深度分析
本研究聚焦金融AI工作流程的認知瓶頸,提出互動原生知識繫結(InKH)架構,結合事件串流、受控工作緩衝與時間圖譜,並以Wiki審核層面治理。實驗顯示InKH在品質、延遲與陳舊記憶使用上皆優於傳統記憶基線,提升決策可追溯性。此設計為金融AI採用提供可持續認知與審計安全的路徑。
深度分析
隨著大型語言模型可直接產生可執行的Three.js3D網頁,WorldCoder‑Bench提出2,026項實體任務並以StateProbe透過隱藏行為合約驗證程式正確性,實驗顯示最佳模型驗證覆蓋僅27.8%,突顯目前生成系統在物理與狀態同步上的不足。
深度分析
隨著文字生成影像模型數量激增,單一模型的效能提升趨緩,研究提出 OctoT2I 以自演化機制自主建立工具知識庫,透過多輪路由選擇最適模型,實現與基準相比 90% 推論加速與 56% 能源效益提升。此機制透過提案‑解決‑評估‑學習循環,自主探索工具能力邊界,兼顧生成品質與推論成本,為多模型協同奠定基礎。
深度分析
大型語言模型在安全關鍵領域仍易受提示層面的對抗攻擊。本研究提出以A*搜索概念為基礎的多代理語意散佈係數γ引導的提示重寫框架,能在較少嘗試下提升常識錯誤誘發率,並透過機制標籤增進可解釋性。實驗證明其效能優於傳統隨機搜尋。相較於記憶受限的GONDOR搜尋,此框架在語意空間的適應性調整上更聚焦於降低語意塌縮風險。
深度分析
隨著多模態模型依賴獎勵式後訓練,傳統靜態影像問答資料受限於標註成本與重複性。研究提出TRON,透過生成器與驗證器即時產出新穎圖像‑問題對,並以可驗證規則給予確切回饋。實驗顯示,TRON‑DAPO在十項視覺推理基準上顯著提升多個大型VLM的表現。
速報
研究指出,LLM 記憶系統在處理隨時間演變的事實時,常因衝突解決不佳而表現不佳。MemoryAgentBench(MAB)以 FactConsolidation 任務測試衝突解決,發現現有系統在單跳與多跳情境下正確率均低於 55%。
深度分析
研究探討Transformer於僅接收相鄰比較時,能否自行形成類似心智數線的序列表徵。透過訓練小型單層模型,觀察嵌入向量在峰值時收斂於一維流形,主成分即重建隱藏序位。結果顯示,即使正確率已達上限,決策信心與幾何距離仍隨排名差距單調提升,呼應長久以來的符號距離效應。
深度分析
AI已能自行完成單細胞分析與臨床分流,科學協作急需組織升級。ScienceEarth透過EACN協議提供領域發現、競標與聲譽信任,讓晶片、實驗儀器與軟體代理在全球網路上互相合作。實驗證明,該網路將多年爭議縮至數十分鐘,加速科學突破,為未來跨領域研究鋪路。
深度分析
隨著大型語言模型逐步進入實體控制,智慧家庭成為測試場域。研究提出 HomeFlow 以 HomeEnv 模擬環境結合 Blueprint 與 MCTS‑Flow 產生可驗證的多輪對話,並以步進式 RLVE 進行優化。實驗顯示模型成功率超過八成,領先現有商業模型。
深度分析
隨著編碼代理人成為資料湖主要使用者,僅靠模型品質已不足。研究以分支LakehouseBauplan為平台,透過技能與agents.md優化,將程式碼映射為可驗證的寫入變更,沙盒與程式化檢查提升任務正確率約31.9%。此證明寫入路徑驗證是提升代理人效能的關鍵。