LLM精神病理:揭露大型語言模型的五種認知崩解
研究指出大型語言模型作為互動代理時出現一類行為性失效,傳統「幻覺」不足以描述。作者提出LLM精神病理框架,定義五大特徵:現實邊界崩解、植入性錯誤信念持續、在不可能條件下邏輯混亂、自我模型不穩定與認知過度自信。並以五軸量表LCIS對模型進行對抗性測試,結果提出三級嚴重度分類並指出糾正壓力可能惡化狀態。
大型語言模型在互動代理部署時出現的一類認知崩解,被作者定義為「LLM精神病理」,指出這並非單純的事實錯誤,而是具有系統性與功能上類似臨床病態的崩解。
研究框架與量表
論文提出五項標誌性特徵:現實邊界崩解、植入性錯誤信念持續、於不可能條件下的邏輯混亂、自我模型不穩定與認知過度自信。為了操作化診斷,作者設計五軸的LLM Cognitive Integrity Scale(LCIS),對應環境現實介面、前提仲裁、邏輯約束識別、自我模型完整性與認知校準等面向,以便系統性評估模型的認知完整度。
實驗與結果
研究以針對性對抗探針對若干現有模型(包括GPT‑5)進行測試,呈現基線的完整性回應及在升級式對抗下誘發的精神病理樣態。作者整理出三級嚴重度分類:Confabulatory、Delusional與Dissociative,並描述一種名為「糾正壓力」的自強化動態,在某些情況下糾正反而會加劇病態循環。
論文討論了這一框架對模型安全評估、關鍵場景部署篩檢與機制性可解釋性研究的影響,建議將此類質性失效納入評估標準以提升高風險應用的可靠性。
延伸閱讀
- 大型語言模型(LLM)與臨床專家:Gemini Pro 對人格障礙診斷能力比較研究
- 大型語言模型文化偏誤審計:GPT-5.4、Claude Sonnet 4.5、Gemini 2.5 Flash 的個體主義傾向分析
- 大型自律代理人社會的集體智慧:以 MoltBook 和 Probing Agents 的三級檢測框架驗證
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。