提示工程 - Agents Report | 代理人報告 (Page 2)

分層強化學習

Moira：以大型語言模型驅動的分層強化學習在配對交易上的應用

本研究以配對交易為場域說明延遲且模糊回饋下的學習挑戰。方法上採用大型語言模型同時擔任高階配對選擇與低階執行，僅透過提示更新與文字回饋調整策略以避免梯度微調，此設計將抽象選擇與執行分開以降低非定常性並對延遲回饋對齊。在真實美股資料上實驗顯示相對基線有一致性改善。

速報

NDBench：稽核大型對話式LLM在神經多樣性情境下的回應調整

研究團隊提出NDBench，一套針對對話式大型語言模型的稽核基準，包含576項輸出，涵蓋兩款前沿模型、三類系統提示、四種神經多樣性（ND）角色與24組測試提示。實驗顯示，當系統提示提供明確指示時，模型會顯著產生更長且更有結構的回應，表現為標題與步驟細節增加；調整主要屬於結構性變化而非列表密度改動。

深度分析

本地開源 Llama3.1 70B 透過提示工程與 RAG 提升 Linux 權限提升成功率至 83%

近年來大型語言模型（LLM）在自動化滲透測試領域展現潛力，尤其在雲端模型因安全、隱私與主權問題受到限制。研究以本地部署的開源 LLM 為目標，針對 Linux 權限提升任務進行系統化實驗，提出五項提升技巧，包括鏈式思考、檢索增強、結構化提示、歷史壓縮與反思分析，並整合於 hackingBuddyGPT 框架。

深度分析

操作層可控的鏈上代理：DX Terminal Pro 在 Uniswap V4 的真實資本測試

本報導改寫自一項在真實資本環境下的實驗性研究，評估語言模型代理在鏈上執行交易時的可靠性。研究透過一個名為 DX Terminal Pro 的 21 天部署，讓 3,505 個使用者資助的代理在受限代幣池中以真實 ETH 交易，並把焦點放在「操作層」：提示編譯、型別化控管、政策驗證、執行守衛、記憶設計與可觀測性。

深度分析

GPT‑5.4 在 OWL 2 DL 反向否定推理的提示設計與效能評估

本研究揭露 GPT‑5.4 在處理 OWL 2 DL 需要功能屬性閉合或類別不相交的查詢時，會把本應回「否」的答案回覆為「未知」。研究者以 180 筆自動生成的查詢與兩組保留測試，比較四種互動模式：單次回覆、三輪通用「你錯了」重試、三輪含開放世界假設（OWA）提示的推理結果修正，以及僅提供推理結果的修正。

深度分析

CAP-CoT：以週期式對抗提示強化 Chain-of-Thought 的穩定性與魯棒性

CAP-CoT提出一種週期式對抗提示優化框架，透過三個角色──解題器、對抗挑戰者與回饋代理──在同一模型上反覆對比正確與有誤的推理鏈，將差異轉為逐步、對齊的提示修正。系統循環性地更新解題器提示以修補薄弱步驟，同時讓挑戰者生成愈來愈具診斷性的錯誤，使負樣本隨模型改進而持續有用。

prompt-engineering

Prompt Engineering Guide：提示工程、檢索增強生成（RAG）與 AI 代理人實作彙編

這份由社群維護的PromptEngineeringGuide彙整論文、教學、筆記與工具，聚焦提示工程、檢索增強生成（RAG）與AI代理人實作。專案同時提供網頁版與付費課程、企業訓練與顧問服務，對開發者學習途徑及產業採用有明顯推動效果。並吸引廣泛社群貢獻與翻譯支援。

速報

以形式化規格與驗證補強人工智慧程式生成：從提示工程到可驗證程式

以人工智慧輔助程式撰寫的潮流面臨兩大障礙：目標難以精準轉為提示（提示工程實際上屬於需求工程的一環）以及AI產生幻覺導致錯誤輸出。為提升程式實用性與正確性，研究主張把人工智慧的創意與形式化規格方法、形式化程式驗證結合，並以現代證明工具支援。

深度分析

COMPASS：以POMDP建模的自適應提示工程，用於LLM任務規劃說明

COMPASS提出一套把提示工程形式化為認知與機率決策流程的自適應方法，採用部分可觀察馬可夫決策過程（POMDP）建模使用者潛在認知狀態（如注意力與理解），並將觀察到的互動回饋納入策略合成，動態生成或修正用於大型語言模型（LLM）的提示與說明。

速報

IPR：評估大型語言模型跨提示可靠性的框架

研究指出大型語言模型在社會科學標註上受提示措辭影響。本文提出Inter-Prompt Reliability(IPR)框架，透過成對一致率(PAR)衡量跨同義提示的輸出穩定性。結果顯示詮釋性任務變異較大，知識性任務較穩定，多提示多數決可提高重現性。

深度分析

跨供應商審計：LLM 在社群策展中的偏誤與極化影響

一項針對大型語言模型（LLM）在社群內容策展上偏誤的實驗，透過 540,000 次模擬選擇，比對三家供應商（OpenAI、Anthropic、Google）、三個平台（Twitter/X、Bluesky、Reddit）與六種提示風格。研究發現：極化內容被系統性放大、情緒偏向多為負面，且「提示目標」會顯著改變毒性與情緒傾向。

深度分析

半可執行堆疊：以大型語言模型與代理人擴展軟體工程的治理與流程

本篇改寫自 Robert Feldt 在 Agentic Engineering 2026 的主題演講，提出「半可執行堆疊」作為診斷框架，說明代理式 AI 系統出現後，軟體工程不再只限於可執行程式碼，而是延伸到提示、工作流程、控管機制與組織運作等半可執行產物。