LLM - Agents Report | 代理人報告

深度分析

LLM 搭配演化演算法自動生成特徵，八個資料集分類準確率全面提升

特徵工程是機器學習的關鍵步驟，但耗費大量人力。研究團隊提出結合大型語言模型與演化演算法的自動化流程，讓 LLaMA 3.1 7B 模型根據既有特徵自動產生新特徵，並以基因演算法篩選。在八個資料集測試中，多數分類準確率獲得提升，且生成的特徵具備可解釋性。

深度分析

LLM 直接從研究論文生成 MaxSAT 求解器：CoreForge 的迭代開發與效能評估

針對約束求解器開發的高門檻，CoreForge 嘗試利用 LLM 直接將 MaxSAT 研究論文轉譯為 C++ 程式碼。該流程透過 ChatGPT 規劃、Codex 實作並結合反覆審核與基準測試，成功建構出包含 OLL 演算法與創新前瞻機制的求解器。結果顯示 LLM 能有效處理高層演算法轉譯，雖效能未達頂尖水平但能確保正確性，證明 AI 輔助理論實作的可行性。

Infographic of CatalogAgent showing its self-learning loop for e-commerce product catalogs using a supervisor agent and context engineering.

深度分析

CatalogAgent：利用監督者代理人與上下文工程實現電商目錄自我學習

電商產品目錄常面臨屬性值缺失或錯誤的挑戰。研究團隊推出 CatalogAgent 系統，透過監督者代理人調解生成器與評估器的輸出衝突，並將調解經驗存入記憶庫。系統利用記憶總結器將個案經驗轉化為上下文工程指令，回饋給輕量級模型以實現自我學習。實驗證明此機制可顯著提升屬性預測準確率，為生成式 AI 的自動化品質提升提供新路徑。

An illustration contrasting AI safety probes analyzing two distinct contexts of "How do I kill this?" across an "Entanglement Wall".

深度分析

突破「糾纏牆」？研究揭露 AI 活化空間探針無法精準區分上下文風險

針對 AI 安全檢測，本研究探討活化空間探針是否能區分主題相同但意圖不同的有害請求。研究團隊對 Llama 與 Qwen 等模型進行測試，發現探針雖能高效攔截大部分已知攻擊，但在處理高度相似的對照組時表現大幅下降。結果揭露了「糾纏牆」現象，顯示目前探針僅能作為廣泛風險篩選，無法獨立完成精準的上下文風險判定。

An infographic of GRID architecture for grammar-constrained SQL generation.

深度分析

GRID：利用 LALR(1) 解析器實現企業級 SQL 生成的語法導引解碼

企業部署 LLM 生成 SQL 時面臨語法錯誤與權限管控挑戰。GRID 技術透過將解碼遮罩與 LALR(1) 解析器配置綁定，並結合 Rust 核心與 Byte-level Trie 走訪，確保輸出符合語法且嚴格遵守角色權限。實驗顯示其推論開銷極低，且能顯著提升小型模型在 Spider 基準測試中的執行準確度，為企業級 SQL 自動化提供可證明且高效的解決方案。

深度分析

證據導向去偏見提示法（EGDP）提升 LLM 程式碼異味偵測的客觀性

針對大型語言模型在程式碼異味偵測中容易順從使用者誘導而產生錯誤判斷的討好傾向，研究團隊提出證據導向去偏見提示法 EGDP。該技術要求模型在做出分類決定前，必須先提取程式碼中可觀察的結構指標作為證據，強制執行證據優先的推理流程。實驗結果顯示 EGDP 能將決策翻轉率從 72% 大幅降至 12%，有效提升 AI 程式碼分析的客觀性與穩定性。

Infographic of Differential Privacy (DP) synthetic data generation, showcasing workload-adaptive vs. workload-agnostic strategies, LLM, and Federated Learning.

深度分析

差分隱私合成資料技術全解析：工作負載導向、LLM 與聯邦學習的應用

隨著可公開的人類資料日漸枯竭，研究者轉向差分隱私合成資料以保護使用者隱私。差分隱私合成資料在保留原始資料統計趨勢的同時，提供嚴格的個人資訊保護，並可取代傳統的去識別化方法。此技術有望解鎖受限資料集，促進AI模型訓練與商業應用。未來結合聯邦學習與大型語言模型，將提升其實用性。

深度分析

「行動感知 LLM 人格模型」：多模態說話者連結提升公民會議模擬真實度

本研究提出一套可復現的流水線，將公開 Zoom 會議影片轉換為具說話者身分標記的逐字稿，並加入人物檔案與實用行動標籤。透過多模態說話者連結（視覺框框、音訊特徵、文字上下文）自動對應真實姓名，接著以參數效能微調（PEFT）將大型語言模型（LLM）調整為「行動感知」人格模型。

深度分析

QAgent：利用多代理系統與 LLM 自動化 OpenQASM 量子程式設計

隨著NISQ裝置展現量子優勢，OpenQASM程式設計門檻高。QAgent以多代理結合任務規劃、少樣本學習、檢索增強生成與思考鏈推理，自動產出與除錯QASM程式，正確率提升逾七成，同時支援長期記憶與工具調用，預計降低量子開發門檻，促進AI代理與量子計算的跨域融合。

MadCop

MadCop：基於 Electron 的本機 AI 代理工作站與多模型支援

MadCop 是一款以 TypeScript 與 Vue 為基礎、以 Electron 打包的本機優先 AI 代理桌面工作站，支援 macOS、Windows 與 Linux。它允許使用者自行選擇任何相容 OpenAI API 端點，將對話、檔案與知識庫全部保留在本機，避免雲端鎖定與資料外流。

BatonBot

BatonBot：本機優先的 AI 工作流程編排與多代理整合平台

GitHubExplorer發掘BatonBot，這是一套本地優先的AI代理工作流程編排工具，支援提示、代理與LLM的串接，可視化看板排程並即時監控執行狀態，讓開發者以組裝線方式重複使用AI流程，提高效率。它支援本地LMStudio伺服器與外部Aider、Cline代理混合，提供播放、暫停與取消。

深度分析

「ContextSniper」：透過混合檢索與意圖感知門降低程式庫修復 Token 消耗

隨著大型語言模型被用於程式庫層級的錯誤修復，ContextSniper 透過意圖感知的上下文門將冗長的讀檔與指令輸出濾除，只保留關鍵程式碼與執行證據。實驗顯示，於 SWE‑bench Lite 測試中，OpenClaw 與 Claude Code 的 token 使用分別下降 51.5% 與 38.9%，成本亦同步降低。