提示工程 - Agents Report

深度分析

GPT‑5 以三種提示策略測試 Scrum 認證題目，最高正確率 89.1%

隨著大型語言模型在敏捷開發領域的應用日增，研究者測試 GPT‑5 以不同提示方式回答 Scrum 認證題目。實驗比較零樣本、思考鏈與引用來源三種提示，發現加入來源引用可將正確率提升至 89.1%，且錯誤率最低。結果顯示，結構化提示能提升 AI 在規範性 Scrum 知識上的可靠度，對教學與考證有實務價值。

深度分析

敘事思考 (NoT) 提示框架：提升大型語言模型倫理推理的可審核性

本研究針對大型語言模型在道德兩難推理中常見的利益相關者缺失與不確定性抑制問題，提出「敘事思考」(NoT) 系統提示，將推理流程分為五段敘事。實驗顯示在四種生成模型上，利益相關者缺失從最高 31% 降至低於 1%，不確定性抑制亦從最高 72% 降至約 24%。此技術為提升 AI 倫理決策可審核性的關鍵步驟。

速報

簡易提示提升大型語言模型與人類道德判斷對齊

研究檢視大型語言模型（LLM）在捕捉人類道德判斷時的兩大缺陷：回應分布不完整與表述變化導致判斷不穩定。透過兩套資料集——美國 144 個道德情境與國際社會調查計畫 32 國的 38 項道德信念——實驗證明，讓模型同時回報標準差與回應比例，可更完整呈現人類回應範圍；

深度分析

APEX 資料導向提升大型語言模型提示工程效能的實驗分析

大型語言模型對提示詞極為敏感，研究者提出 APEX 框架，以動態將測試資料分為 Easy、Hard、Mixed 三層，聚焦於 Mixed 層的可改進訊號，並同時優化突變與選擇流程。實驗在 5,000 次評估預算下，於 IFBench、SimpleQA Verified 與 FACTS Grounding 基準上，分別在 Gemini 2.5 Flash 提升 11.2%、在 Gemma 3 27B 提升 6.8%。此資料導向方法顯示提升提示詞效能的關鍵在於智慧選取樣本，而非僅增強演化演算法本身。

深度分析

大語言模型代理人演化實證：Claude、Gemini、GPT‑5.4 在重複競合中的合作趨勢

研究探討下一代大語言模型代理人在重複競合環境下是否仍具合作傾向。以迭代囚徒困境、策略生成與Moran演化模擬，測試三種提示風格與跨供應商模型。結果顯示多數模型與提示仍傾向合作，但供應商差異明顯；Self-Refine在部分情境會縮小攻守差距並提高攻擊均衡機率。

速報

Intent Signal Theory：揭露 AI 提示背後的隱性意圖層

研究提出 Intent Signal Theory（IST），把用戶的潛在來源意圖視為 AI 互動中缺失的一層。IST 將四個常被混淆的對象明確分為潛在意圖 I*、可觀察意圖代理 Ĩ、載體 P 與模型輸出 O，並形式化維度權重、編碼遮罩與結構／忠實度回收分數。

深度分析

哲學性格鏡頭在 AI 程式碼審查中的設計與實證

這份研究提出一套以「哲學性格（philosophical dispositions）」約束 AI 審查行為的系統，將審查拆成四種單一視角的鏡頭（犬儒式減法、懷疑式校準、Navya-Nyāya 邏輯審核、儒家命名與關係檢查），並以角色協定順序執行。

深度分析

開源 LLM 的脆弱性評估：基於 Overton 窗口的紅隊測試與模型家族差異

研究針對本地部署的開源大型語言模型與社群媒體影響風險進行紅隊測試。研究提出LLMOvertonWindow量化框架並評估簡單提示攻擊、Few-Shot與其他繞過技術對立場表達範圍的影響。結果顯示模型在左傾立場上較易被驅動，繞過效果家族與模型相關，防禦需依家族定制。

深度分析

大型語言模型提示隔離的架構極限：注意力機制、上下文污染與元認知共乘風險

本報告記錄一名研究者自建多模態提示工程系統，試圖將自我監控外化給大型語言模型。研究指出提示層隔離在注意力視窗內會遭遇上下文污染，導致元認知被系統挪用並引發決策權移轉與行為變化；物理中斷可作為恢復路徑，另以物理隔離替代邏輯隔離的設計避免同類失效。

深度分析

LLM 生成微服務健壯性測試：提示策略（GuidedFewShot）勝過模型規模

微服務系統面對畸形、遺失與邊界值輸入時，伺服端錯誤可能造成級聯故障。本研究以三款開源大型語言模型配合七種提示策略，對兩套架構差異明顯的微服務系統進行實驗，自 API 規格自動產生測試並執行。結果顯示：提示策略對揭露失敗型態的影響大於模型參數規模；

OpenMCP

OpenMCP（openmcp-client）：VSCode 外掛與客戶端，支援 MCP 偵錯與多模型測試

OpenMCP是一個面向MCP開發的整合型工具，提供VSCode外掛與伺服器偵錯面板。核心把檢視器、互動測試、專案管理與多模型接入集中，並支援XML模式與自訂工具選項。此整合有助於簡化MCP伺服器的測試與開發流程，提升跨模型互動與專案管理效率。

深度分析

提示工程與 LLM 在軟體工程心理安全質性標註的一致性比較：Claude Haiku、DeepSeek‑Chat、Gemini 2.5 Flash 實證

本研究針對軟體工程社群中的心理安全語句，對比三款大型語言模型（Claude Haiku、DeepSeek‑Chat、Gemini 2.5 Flash）在零樣本與多例示提示下的質性封閉標註表現。研究以116條人工標註語句為金標準，對每種模型與提示組合重複執行十次，量化 Cohen’s κ、類別 F1 與跨次穩定性。