可觀測性 - Agents Report

速報

TelecomTS：為5G可觀測性時間序列打造的大規模基準

企業在監控系統時產生大量可觀測性時間序列資料。論文提出TelecomTS，來自5G電信網路，包含去匿名化共變量與絕對量級資訊。並提供異常檢測、根因分析與多模態問答等下游任務。測試顯示現有基礎模型面對突發噪聲與高變異時效力有限，保留量級資訊至關重要。

深度分析

以儀表板量化代理式 AI 技術債與隨機稅：指標、模擬與管理對策

研究背景：代理式AI系統把機率推理與委派行動整合在業務流程中。核心做法：區分累積的設計與治理負債為代理式技術債，並把反覆發生的營運負擔建模為隨機稅；以股流模型、操作性量測規則與模擬化儀表板支援管理決策。主要影響：有助於辨識應優先還債的工程項目與需持續投資的監控運維。

LangSmith Engine

LangSmith Engine：以生產追蹤自動化代理人除錯與修補流程

企業部署自主代理常延遲發現錯誤。LangSmith推出LangSmith Engine公測，能自動從生產追蹤偵測失敗、診斷根因、讀取即時程式碼並草擬修補拉取請求，還會為該故障模式建議自訂評估器。此流程把人工介入限定在審核階段，有助於加速修復並改善多模型環境的可觀測性。

意圖偏移分數

用意圖偏移分數與漸進式混沌測試驗證自主 AI 代理人行為安全

企業在導入自主AI代理人後，常只檢驗模型表現與安全審核，卻忽略系統在非預期情境下的行為。文章提出以「意圖偏移分數」量化代理人偏離目的的程度，並以四階段意圖導向混沌測試，在進入生產前攔截自信但錯誤的自動決策，以降低不可逆停擺風險。並要求人為審核作為最後防線。

深度分析

Cisco以Defense Claw與OpenShell建構AI代理人信任架構：部署與可觀測性策略

在RSA會展上報導指出八成五企業有AI代理人試點但僅有少數進入生產。文章強調必須建構信任架構，從身分、委派到遙測皆需同時落實；並提出Defense Claw與OpenShell整合為範例。其核心影響是若無可信委派與可觀測性，試驗難以規模化生產。

深度分析

分散式 AI 推論中的時鐘偏差：毫秒級差距如何破壞可觀測性與因果推論

分散式AI推論管線普遍以時間戳記作為觀測依據，研究者在單一推論階段人工注入3至5毫秒的時鐘偏差，結果顯示當偏差超過5毫秒時，時間序列出現負跨距，因果關係被破壞，然而系統吞吐量與推論正確率仍保持穩定。此現象顯示即使功能正常，觀測資料的因果可信度亦可能在毫秒級偏差下崩潰，凸顯同步精準度在分散式AI系統中的關鍵角色。

MLflow

MLflow：開源 AI 工程平台，支援 LLM、提示管理與可觀測性

MLflow是以Python為主的開源AI工程平台，專注支援代理人、巨型語言模型（LLM）與機器學習模型在生產環境的可觀測性、評估與治理。平台功能涵蓋執行時追蹤、模型評估、提示管理與優化，以及AI閘道來控管模型存取與成本。

深度分析

AI 系統日誌分析七步流程與 Inspect Scout 實作指南

AI系統產生大量日誌，分析可洞察模型行為與評估成效。本文提出七步標準化流程，示範InspectScout程式庫實作，提供可重複的分析框架。