速報 - Agents Report | 代理人報告 (Page 43)

速報

IRC-Bench：針對回憶敘事的隱含實體識別基準

回憶敘事以間接線索指涉實體。本研究提出IRC-Bench，用1994篇逐字稿與12337個維基連結實體評測非本地性實體識別，配對含實體與刪除實體版本，檢驗生成式大模型、密集檢索、RAG與微調等19種設定；開放世界由QLoRA調整的Llama3.1 8B表現最佳，閉環檢索則以微調DPR領先。

速報

SIREN：化解調校選擇敏感性的程序層級評估方法

評估大型語言模型常受調校與範例重用影響，導致選擇敏感性。論文提出SIREN：一套選擇感知的重複分割報告流程，固定搜尋後的候選榜單，分離分割內選擇與保留資料評估，並用項目層級的高斯乘子自助法估計不確定度。實驗顯示傳統以冠軍報告可能偏樂觀，SIREN更接近程序層級的有限樣本目標。

速報

Ubuntu 與 Canonical 網路基礎設施遭 DDoS 攻擊中斷，攻擊方宣稱使用 Beam

Ubuntu與Canonical的網站與更新伺服器自週四起遭大規模DDoS攻擊而離線。攻擊方宣稱以Beam工具執行，屬booter類流量服務。事件發生在研究者公開可在多數Linux發行版取得root的利用程式碼後，官方通訊受限，更新則可由鏡像站取得。

速報

LeakDojo 評估：RAG（檢索增強生成）帶來的資料外洩風險

研究指出，檢索增強生成（RAG）讓大型語言模型引用外部知識，同時增加資料庫外洩風險。作者提出LeakDojo，可在可控環境下評估多種外洩攻擊與RAG系統脆弱性。測試涵蓋多款LLM與資料集，發現查詢生成與對抗性指令可獨立促成外洩，且指令遵從性較高的模型外洩風險更高。

速報

LCC-LLM：以程式碼為核心的惡意程式屬性判定與靜態分析框架

大型語言模型在惡意程式分析應用上常缺乏程式碼層證據與多樣指標支援。研究提出LCCD資料集與LCC-LLM框架，將約34K個PE樣本經反編譯和靜態逆向處理，使用反編譯C、組合語言、CFG/FCG、十六進位與PE欄位等程式碼中心表示。

速報

大型語言模型與自動啟發式設計：知識優先的自上而下搜尋

研究聚焦大型語言模型在組合優化中的自動啟發式設計。論文提出以知識為主的自上而下搜尋，將知識當作主要搜尋目標，再以程式實現驗證其效用。相比以程式為中心的做法，知識優先能提升發現效率與跨問題推廣性。並指出結合兩種策略可帶來額外提升，且重要在於構建可解釋且跨路徑保留價值的假說演化。

速報

蒙地卡羅組合規劃（MCPP）：在預算與時限下提升代理式工作流程完成率

代理式系統面臨預算與時限約束。提出蒙地卡羅組合規劃（MCPP），用模擬執行並在觀察後重規劃，估計並最大化受限下的工作流程完成機率。規劃涵蓋子任務的模型指派與平行採樣，同時管理剩餘預算與時間，以提升整體完成機率。在多種預算與時限條件下表現更佳。

速報

馮·諾依曼神經元與 VNN：細胞陣列自我構架的神經網路新路徑

研究把馮·諾依曼在細胞陣列上的構想帶入深度學習，提出可學習專職角色的馮·諾依曼神經元與其網路。方法在具擴散特性的細胞拓撲上，以卷積化學習類 Green 函數與神經算子延伸，網路依輸入輸出位置自我生成。實驗顯示此架構在基本任務上較等價深網更省參數且具擴展性。

速報

OpenClaw AutoTrader：以 JavaScript 與 AI 代理的 30 天美股公開實盤挑戰

本報導聚焦開源專案 OpenClaw AutoTrader 的實盤實驗：專案以 JavaScript 結合 AI 代理人，展開公開的 30 天美股挑戰，並每日披露決策、回顧與學習日誌。專案強調真實交易（非回測）、流程透明與可追蹤的學習曲線。

速報

BlenderMCP：用 Model Context Protocol 將 Blender 與 Claude AI 連結

該專案是一款開源外掛，透過 Model Context Protocol 把 3D 軟體 Blender 與 Claude AI 連接，讓 AI 在建模與場景操作時提供即時輔助。專案強調低門檻整合、提示驅動的建模流程與社群支援，README 提供下載與安裝流程並引導使用者加入討論。

速報

postgrest-mcp：整合PostgREST與OAuth2，支援Supabase與Neon的輕量MCP伺服器

這項專案源於對PostgREST整合需求。它提供可連接Supabase與Neon的PostgRESTMCP伺服器，支援OAuth2與串流HTTP，讓API整合與自我部署更為順暢，對採用PostgREST架構的開發團隊具實務價值。有助於在雲端或自托管環境快速串接資料層與API層。

速報

llamator MCP 伺服器：自動化 LLM 紅隊測試與安全流程

發現一個開源專案 llamator-mcp-server，目標是自動化大型語言模型（LLM）的紅隊測試與安全工作流。專案以 MCP（管理與協調）伺服器為核心，支援非同步任務處理、行為分析與測試整合，並導出可用於檢視的漏洞報告與流程記錄。專案採用 Python 開發，強調使用門檻低與使用者導向介面，方便測試人員在多平台部署與執行測試場景。