LLM - Agents Report | 代理人報告 (Page 8)

深度分析

ReElicit：以引導式嵌入與貝式優化提升系統提示效能

系統提示是現代 AI 控制的關鍵元件，但在只有聚合回饋（scalar feedback）情境下難以調校。ReElicit 提出「引導式嵌入」（embedding by elicitation），由 LLM 從任務說明與已評估提示與分數中萃取少量語意維度，形成可供高斯過程代理模型與貝式優化使用的連續表示；

深度分析

互動層水印：以 asking-back 行為提升 LLM 抗蒸餾可稽核性

面對透過 API 進行的未授權知識蒸餾，研究提出將水印移到互動層：透過系統提示間歇誘發追問、低密度變體或重述等行為標記，使被盜取的學生模型在回應行為上保留可查證跡象。

深度分析

從決策歸因審視 LLM 在醫療互動的倫理多元性與集中化風險

本研究在醫療倫理的基礎上，建立50則臨床兩難基準與決策歸因法，直接從模型選擇回推價值權重。結果發現前沿語言模型在單案上決策高度一致但缺乏醫師間的分佈式多元，少數模型顯著低估病人自主，部署時有取代臨床多元的風險。研究同時觀察到模型在推理文字中會討論相互衝突的倫理但最終仍做出一致選擇。

深度分析

DIO-Agent：以轉換優先原則（TPP）與 LLM 變異導向的 IO2Code 演化搜尋

面對從輸入輸出行為推導程式的挑戰，作者提出DIO-Agent以LLM作為變異器、將發展視為演化搜尋，並以轉換優先原則偏好簡單假說。實驗顯示其在多難度IO2CodeBench上普遍優於既有方法。方法透過分階課程從常數到迴圈逐步擴充結構，並以執行誤差回饋導向變異，能減少過擬合與結構性盲點。

深度分析

CAX-Agent：以回復階梯強化 MAPDL 與 APDL 自動化執行可靠性

CAX-Agent 提出以「代理 harness」為核心的 MAPDL 自動化中介，將大型語言模型本地推理、外部高階 LLM 與求解器整合為三層執行架構。系統引入回復階梯（由規則修補、模型驅動重生、情境增強到人工升級）由 orchestrator 管理重試預算與執行狀態，將錯誤日誌作為條件提示回饋給模型以生成修正 APDL。

深度分析

SimPersona：以行為感知 VQ‑VAE 將點擊流離散化為 LLM persona token，重建電商買家分布

面對電商真實買家行為多樣性，SimPersona以行為感知的VQ-VAE從點擊流學習離散買家類型。再把每類對應成LLM詞彙的persona token並兩階段微調，使代理能以單次編碼指派身分並重現店家層級的人口分布。實測在多家未見即時店面上達到78%轉換率對齊並優於更大基線。

深度分析

MSIFR：在生成過程中多階段即時終止以降低LLM合成資料代幣成本

在後訓練資料生成中，直接完整輸出再篩檢會浪費大量代幣。MSIFR（Multi-Stage In-Flight Rejection）提出一種輕量、無需再訓練的多階段驗證框架，將生成流程拆成問題、部分解、完整解與最終評估四階段，於中間節點以規則式驗證器（檢查算術一致性、幻覺模式與格式違規等）即時終止低品質生成軌跡，避免繼續消耗代幣。

PyTorch

Automodel：支援 Hugging Face 的 PyTorch 分散式訓練平台，優化 LLM/VLM 微調流程

Automodel是GitHub上的開源專案，聚焦PyTorch原生分散式訓練平台。同時支援HuggingFace模型即插即用，方便微調與預訓練流程。專案採DTensor與SPMD設計，搭配優化配方與自訂內核以提升大模型訓練效能。對研究與工程團隊來說，能降低整合門檻並提高訓練效率與可擴展性。

LLM

Cocada：桌面化多代理 LLM 協作平台，支援本地執行與可插拔開發流水線

Cocada 是一款以 macOS 桌面為主的開源工具，設計目標是把多個角色化的 LLM 代理（例如標記為 CTO、Dev、QA 的代理）編排成完整、可重複的開發流水線。

深度分析

AmaraSpatial-10K 資料集：結合 SPS、CLIP 與 LLM 評估的可部署 3D 資產庫

3D資源數量多但難以直接部署為背景。AmaraSpatial-10K以公制尺度、語義錨定、PBR材質與碰撞外殼統一資產表徵，並附詳實文字與參考影像，旨在提升場景佈局與語意檢索可用性。評測顯示其文字到資產檢索精準度較Objaverse提升3.4倍。

深度分析

BEAVER：企業資料倉儲中 Text-to-SQL 的檢索與生成瓶頸

現有 text-to-SQL 基準多源自公開資料與人工標註，難以代表企業資料倉儲的複雜性。研究團隊提出 BEAVER，一組來自真實企業資料倉儲、並以使用者歷史查詢與對應正確 SQL 匯整的資料集，並在檢索＋大型語言模型（LLM）流程下測試。

深度分析

以 LLM 註記 RAB‑Cred：評估丹麥難民裁決中可信度判讀的可行性

本研究以丹麥庇護裁決文本建立RAB‑Cred資料集，測試以開放權重的大型語言模型（LLM）做零樣本與少樣本註記。研究比對多款模型與多種提示，並分析錯誤類型與一致性。結果指出LLM具成本優勢但標註不穩定，建議採用模型或提示混合集成與人類覆核。可供後續研究採用。