速報 - Agents Report | 代理人報告 (Page 34)

速報

Hydra：為程式生成靜態錯誤設計的高效回復系統

大型語言模型在程式碼生成時常遭遇靜態錯誤，導致無法編譯而阻礙後續測試流程。Hydra 提出非同步檢查與檢查點回滾機制，讓檢查可與生成同時進行，並在發現錯誤時只回滾到錯誤相關的檢查點以進行局部修復，避免重生成與重檢查。

速報

LLM導引樹狀搜尋：自動化生成流行病預測模型

機率性流行病預測對公共衛生至關重要，但長期仰賴專家手工建模，限制了擴展與快速應變。研究提出一套自動化系統，採用大型語言模型（LLM）引導的樹狀搜尋，迭代生成、評估與最佳化可執行預測程式碼，並以自動化審查維持科學結構。

速報

神經符號法理：在資料污染下的稅法推理比較

研究指出大型語言模型在法律推理上可能受訓練資料污染扭曲。作者設計污染偵測流程與專門測試集，比較純模型與把法條轉為形式表示、交由符號推理器處理的混合架構。結果顯示污染會抬高評估成績，而神經符號框架在未見文件上更穩健且泛化較佳。此研究對法律人工智慧評估方法帶來重要提醒。

速報

大語言模型評估使用者狀態可靠性不足：GPT-4o 與 Gemini 證據揭示風險

本研究實證檢驗以大語言模型（LLM）量化使用者狀態的心理計量可靠性。研究團隊採用複製性評估流程，針對 GPT-4o audio、Gemini 2.0 Flash 與 Gemini 2.5 Flash 三款雙模模型，測試 213 項指標的重測一致性，並比較個別分數與彙整後的穩定度。

速報

以「元認知」為設計原則：提升人工智慧準確性、效能與安全的實作路徑

研究主張以元認知作為人工智慧設計原則。系統自我監控狀態，並根據問題難度與錯誤成本謹慎配置資源；此作法結合資源理性與心理學的元認知策略，可改善學習效率與安全性。作者並以聯邦學習案例示範應用，並提供一個可供社群實驗的軟體框架。論文也指出將這些策略整合到人工智慧設計仍有理論與實作上的挑戰。

速報

RoboLab：以模擬基準揭露通用機器人策略的泛化缺口

現有模擬基準與訓練集重疊，弱化泛化檢測。RoboLab在高擬真模擬中結合人類與大型語言模型生成場景，推出RoboLab-120包含視覺程序關聯三軸與多層次難度，並量化真實策略在受控擾動下的效能與敏感度，揭示先進模型仍存在顯著差距。加速評估任務通用性的可擴展工具集。

速報

M²RNN：以矩陣隱藏態重啟非線性 RNN，強化長上下文與大型語言模型效能

背景：Transformer在某些任務受限於計算複雜度上限。方法：提出Matrix-to-Matrix RNN（M²RNN），採用矩陣隱藏態與非線性狀態轉移，並透過狀態擴增利用張量核心。結果：在混合架構與長上下文測試上展現更佳泛化與困惑度改善。

速報

Ubuntu 與 Canonical 網站遭跨境 DDoS 攻擊逾一天癱瘓

Ubuntu 與其母公司 Canonical 的網站與更新服務自 5 月 3 日上午起被持續的跨境 DDoS 攻擊癱瘓，導致使用者無法從官方伺服器下載更新，也阻斷了安全通報的發佈。攻擊者自稱是親伊朗的團體，利用 Beam 壓測工具發動大規模流量攻擊，與近期針對 eBay 的同類攻擊手法相似。

速報

FutureSim：以時序重播衡量AI代理的長期適應力

AI代理日益在需即時調整的開放環境部署。FutureSim以時間序列重播真實新聞並讓代理於其中預測未來事件，結合長期測試、搜尋、記憶與不確定性推理。在2026年1月至3月的三個月評測中，最高準確率僅25%，多數模型在Brier技能分數上不如不預測

速報

OpenAI整併ChatGPT與Codex，Greg Brockman接掌產品戰略

背景：OpenAI進行組織重整以統一產品。核心做法：將ChatGPT、開發者編碼代理Codex與API合併為單一核心產品團隊，強化以Codex驅動的代理任務能力並統一消費與企業端體驗。主要影響：此舉意在簡化產品線、加速整合並為未來市場及可能上市做好準備。

速報

Google 將操控人工智慧搜尋列為垃圾訊息違規

Google修訂搜尋垃圾訊息政策，明文把試圖操控人工智慧搜尋回應的策略列為違規。這類策略包括用偏頗的最佳榜單或透過所謂的「推薦中毒」向大模型注入指示，讓特定網站被視為權威或頻繁被 AI 引用。遭到認定的網站可能面臨排名下調或從 AI 檢索結果移除，影響可見度與流量。

速報

Goldstone 類自由度讓等變深度網路自然穩定：跨層傳訊與長期記憶機制

研究指出當神經網路內部層對連續對稱呈等變時，會出現類Goldstone自由度。作者以理論分析與實驗驗證，顯示這些自由度能跨層維持相干性，並在迴圈迭代中持續傳播資訊，強化表徵多樣性與長期記憶能力。在前饋網路可提升可訓練性與跨層表徵差異性；在迴圈網路則有助於長期資訊保存與序列建模表現。