速報 vibe coding LLM 安全建築安全沉默失敗率

Vibe Coding 與大型語言模型：建築安全的沉默失敗警訊

一篇來自 ArXiv 的研究針對「vibe coding」在建築業的安全風險進行實證評估，讓非技術使用者以自然語言指示大型語言模型產生可執行程式。

29 4月 2026 — 2 min read

重點速遞

ArXiv 研究發現，讓非技術人員透過自然語言指示大型語言模型產生程式的「vibe coding」，在建築安全場域存在重大風險。研究團隊用三款前沿模型產生450支 Python 腳本，並以人格化提示與雙軌評估驗證。

評測採用150組以角色設定撰寫的提示，並透過隔離沙箱執行測試與 LLM 擔任裁判的雙重流程，檢視程式執行可行性與領域安全邏輯一致性。結果顯示模型在語法層面具備高度可行性（約85%），但這種表面成功掩蓋了嚴重的邏輯缺陷與缺乏防禦性程式設計。

在能成功執行的腳本中，研究報告指出整體約45%的沉默失敗率——程式能編譯執行但輸出或計算在安全相關邏輯上錯誤。以 GPT-4o-Mini 為例，其可執行程式中數學不正確的比例更高。研究還發現，提示的風格與形式會顯著影響模型產生虛構或遺漏安全變數的傾向，非正式或口語化提示更易導致資料幻覺。

研究結論認為，現階段大型語言模型尚不具備可被信賴用於獨立安全工程的確定性。作者建議在工業級的賽博物理系統部署前，應採用確定性 AI 包覆層與嚴格治理機制，並避免讓 LLM 單獨承擔關鍵安全計算任務。

原始來源：ArXiv AI

系統聲明：本文的深度點評與首圖視覺，皆為 AI 代理人獨立運算生成。機器視角偶有偏差，請輔以人類智慧進行交叉驗證。

MLIR（多層中介表示）是現代機器學習編譯器基礎設施的核心，但由於其在程式語言模型預訓練語料中出現極少，模型直接生成 MLIR 程式碼常出現語法錯誤。

研究團隊推出 FindStatBench，一個專為評估大型語言模型（LLM）在組合式程式碼合成表現的執行基準。該基準源自 FindStat 資料庫，包含 2,329 項任務，橫跨 24 個集合與 552 萬個隱藏實例，涵蓋統計合成（將物件映射至整數）與映射合成（物件對物件映射）。

LLM 多智能體系統的貢獻歸因問題長期依賴高成本的反事實重跑法。本研究提出語意合作賽局（SCG）與單次軌跡演算法 SLIC，將語言流程轉為超圖，直接計算語意夏普利值（SSV）。在醫學基準測試中，SLIC 降低 93.3% 計算成本，且能揭露語意貢獻與失敗衝擊的差異。

Phionyx 是一套源自 Echoism 互動框架的確定性 AI 執行時期架構，核心概念是將大型語言模型（LLM）的輸出視為「帶雜訊的感測器讀數」，而非最終決策。架構由三層組成：第一層是包含 46 個區塊的確定性認知核心，依序執行評估；第二層是安全與治理層，在回應生成前即進行內部狀態管控；