深度分析
GPT‑5.4 在 OWL 2 DL 反向否定推理的提示設計與效能評估
本研究揭露 GPT‑5.4 在處理 OWL 2 DL 需要功能屬性閉合或類別不相交的查詢時,會把本應回「否」的答案回覆為「未知」。研究者以 180 筆自動生成的查詢與兩組保留測試,比較四種互動模式:單次回覆、三輪通用「你錯了」重試、三輪含開放世界假設(OWA)提示的推理結果修正,以及僅提供推理結果的修正。
深度分析
本研究揭露 GPT‑5.4 在處理 OWL 2 DL 需要功能屬性閉合或類別不相交的查詢時,會把本應回「否」的答案回覆為「未知」。研究者以 180 筆自動生成的查詢與兩組保留測試,比較四種互動模式:單次回覆、三輪通用「你錯了」重試、三輪含開放世界假設(OWA)提示的推理結果修正,以及僅提供推理結果的修正。
深度分析
CAP-CoT提出一種週期式對抗提示優化框架,透過三個角色──解題器、對抗挑戰者與回饋代理──在同一模型上反覆對比正確與有誤的推理鏈,將差異轉為逐步、對齊的提示修正。系統循環性地更新解題器提示以修補薄弱步驟,同時讓挑戰者生成愈來愈具診斷性的錯誤,使負樣本隨模型改進而持續有用。
prompt-engineering
這份由社群維護的PromptEngineeringGuide彙整論文、教學、筆記與工具,聚焦提示工程、檢索增強生成(RAG)與AI代理人實作。專案同時提供網頁版與付費課程、企業訓練與顧問服務,對開發者學習途徑及產業採用有明顯推動效果。並吸引廣泛社群貢獻與翻譯支援。
速報
以人工智慧輔助程式撰寫的潮流面臨兩大障礙:目標難以精準轉為提示(提示工程實際上屬於需求工程的一環)以及AI產生幻覺導致錯誤輸出。為提升程式實用性與正確性,研究主張把人工智慧的創意與形式化規格方法、形式化程式驗證結合,並以現代證明工具支援。
深度分析
COMPASS提出一套把提示工程形式化為認知與機率決策流程的自適應方法,採用部分可觀察馬可夫決策過程(POMDP)建模使用者潛在認知狀態(如注意力與理解),並將觀察到的互動回饋納入策略合成,動態生成或修正用於大型語言模型(LLM)的提示與說明。
速報
研究指出大型語言模型在社會科學標註上受提示措辭影響。本文提出Inter-Prompt Reliability(IPR)框架,透過成對一致率(PAR)衡量跨同義提示的輸出穩定性。結果顯示詮釋性任務變異較大,知識性任務較穩定,多提示多數決可提高重現性。
深度分析
一項針對大型語言模型(LLM)在社群內容策展上偏誤的實驗,透過 540,000 次模擬選擇,比對三家供應商(OpenAI、Anthropic、Google)、三個平台(Twitter/X、Bluesky、Reddit)與六種提示風格。研究發現:極化內容被系統性放大、情緒偏向多為負面,且「提示目標」會顯著改變毒性與情緒傾向。
深度分析
本篇改寫自 Robert Feldt 在 Agentic Engineering 2026 的主題演講,提出「半可執行堆疊」作為診斷框架,說明代理式 AI 系統出現後,軟體工程不再只限於可執行程式碼,而是延伸到提示、工作流程、控管機制與組織運作等半可執行產物。
深度分析
本研究以單一自傳式個案記錄研究者建置的多模態提示系統,指出提示層隔離在語境敏感LLM系統中有結構性不足;元認知被挪用導致決策權外移與封閉迴路崩潰,示範以物理對話中斷替代邏輯隔離作為防護,同時討論自動化偏誤與AI介入溝通的比較及對開發者生態與產業監管的潛在影響。
深度分析
本研究聚焦於激活導向作為白箱控制技術的可實現性問題,提出將其視為滿射性檢驗。作者證明在實務假設下,激活導向會將殘差流推離離散提示可達的流形,幾乎不可能有提示復現相同內部行為。實驗在三款主流 LLM 上驗證,確立白箱可控與黑箱提示的正式分離,警示解釋性與安全性評估需分開考量。