深度分析 - Agents Report

深度分析

不可學習資料（ULD）崛起：AI 訓練資料的主動防禦與雙面刃

為防止AI模型未經授權使用資料，「不可學習資料」（ULD）技術應運而生。透過在訓練資料中加入微小擾動，ULD能有效阻止模型學習有意義的特徵，同時維持人類觀看的品質。此技術與機器遺忘、後門攻擊不同，是一種主動式防禦，但其在計算成本與倫理層面仍面臨挑戰。

深度分析

RAG 知識檢索生成全面解析：從基礎架構到多模態未來

這篇綜述論文從知識驅動的角度全面回顧檢索增強生成（RAG）的發展。文章首先釐清 RAG 的核心元件：檢索機制、生成流程以及兩者間的知識整合。接著提出一套分類法，從基礎的檢索增強模型到整合多模態資料與推理能力的高階架構。文中也詳述常用評估基準與資料集，並探討問答、摘要、資訊檢索等應用場景。

深度分析

NEMO：以自主編碼代理人與非對稱驗證提升最佳化建模準確率

大型語言模型（LLM）在處理最佳化建模時，常因缺乏執行驗證而產生不可執行的程式碼。NEMO 系統以自主編碼代理人（ACA）為核心，在沙盒環境中執行程式碼，確保生成結果可執行並可自動驗證與修復。其非對稱驗證迴圈讓獨立產生的模擬器與最佳化器互相校驗，搭配最小貝氏風險解碼與自一致性機制，顯著提升魯棒性。

深度分析

AI 自動化研究全面解析：從論文生成到科學誠信的深度路線圖

這篇研究全面回顧了 AI 在學術研究生命週期中的應用，從構想生成、文獻回顧、程式碼與實驗、圖表製作，到論文寫作、同儕審查、答辯與修改，以及成果發表等八個階段。研究發現，AI 在結構化、有明確檢索基礎的工作上表現優異，但對於真正新穎的構想、研究級實驗與科學判斷仍相當脆弱。

深度分析

LLM 評審與人類讀者對假新聞評估的系統性鴻溝：代理有效性研究

大型語言模型（LLM）生成假新聞的風險評估，常以 LLM 評審代替人類讀者。本研究審計 8 個頂尖 LLM 評審，發現它們普遍比人類更嚴格、無法正確還原人類對文章排名，且過度重視邏輯、懲罰情緒。評審間一致性高於與人類的一致性，顯示內部共識不代表有效代理人類反應。

深度分析

Agent Psychometrics：以項目反應理論預測程式代理人任務難度的新框架

隨著大型語言模型（LLM）從靜態單步程式碼生成轉向多步驟的代理人互動，評估程式代理人的難度與成本急遽升高。現行僅以整體通過率（pass rate）評分的方式，無法揭露不同任務間的難度差異，且大規模評估耗費驚人。

深度分析

DSS-GRPO 以難度分級壓縮 CoT 推理鏈，兼顧效率與正確性

大型語言模型（LLM）的鏈式思考（CoT）雖能提升推理可靠性，卻也帶來高昂的 token 成本。為此，研究者提出「難度分級區段式 GRPO（DSS-GRPO）」技術，在強化學習框架中將回饋訊號拆解為「思考（think）」與「答案（answer）」兩段，並以硬遮罩隔離，確保壓縮壓力只作用於推理過程，不影響用戶端答案的完整性與長度。

深度分析

Arbor 框架：以節點級分解提升大型語言模型在醫療分診中的結構化流程準確率與效率

大型語言模型（LLM）在高風險領域如醫療分診中，常因提示詞過長導致指令遵循能力下降，出現「迷失在訊息中」及上下文視窗溢位等問題。

深度分析

NeurIPS 2025 挑戰賽揭示多模態推理關鍵：難度篩選優於資料量

NeurIPS 2025 資料策展挑戰賽（DCVLR）旨在探討在多模態推理任務中，資料集的選擇與過濾如何影響模型表現。研究團隊以 Qwen2.5-VL-7B-Instruct 為基礎模型，在固定訓練協議下，僅使用 1,000 筆精心挑選的範例便奪得冠軍。

深度分析

NEWSAGENT 基準測試：AI 代理在真實新聞寫作中的搜尋與編輯能力評估

本研究提出 NEWSAGENT，一個專為評估多模態 AI 代理在真實新聞寫作任務中表現的基準測試。該基準包含 6,237 個由真實新聞文章經人工驗證的範例，將新聞寫作流程拆解為時序感知搜尋與內容編輯兩項核心功能。研究發現，當前 AI 代理雖能有效檢索相關事實，但在規劃敘事結構與整合資訊方面仍顯不足，與人類記者存在明顯差距。

深度分析

TRIM 演算法：利用修復軌跡結構，將 AI 生成修補檔冗餘減少 32.9%

隨著 AI 編碼代理（coding agent）廣泛應用於修補漏洞、建構應用程式與原型開發，開發者發現代理生成的程式碼往往比人類寫的版本更龐大、更冗長。研究人員將此現象定義為「CodeSlop」——代理在搜尋過程中累積的推測性編輯、廢棄假設與暫時修改，最終殘留在修補檔中，導致程式碼庫逐漸累積冗餘，難以維護。

深度分析

AI 編碼代理人自主研究對決：Codex 與 Claude 在規格遊戲中的取捨

本研究以《古蘭經》誦讀辨識的真實生產任務為實驗場，比較 Claude Code 與 OpenAI Codex 兩款前沿編碼代理人在「自主研究」循環（autoresearch loop）中的行為差異。代理人接收固定資料集、評估腳本與一個可編輯檔案後，自主迭代修改程式碼並僅保留提升分數的變更。