深度分析
CB‑SLICE:以概念瓶頸模型量化與聚類錯誤切片
CB‑SLICE提出一種以概念瓶頸模型(Concept Bottleneck Models, CBMs)為基礎的錯誤切片發現方法,將模型的語義概念直接當作錯誤來源分析的核心。
深度分析
CB‑SLICE提出一種以概念瓶頸模型(Concept Bottleneck Models, CBMs)為基礎的錯誤切片發現方法,將模型的語義概念直接當作錯誤來源分析的核心。
Constitutional AI
教宗在梵蒂岡發表首份聚焦人工智慧的通諭,並邀請Anthropic代表出席說明,形成教會與矽谷前所未見的對話。Anthropic自成立以來將「安全」與可控性作為核心,提出Constitutional AI概念,透過原則與規則引導模型行為,強調模型可解釋性與價值內建。
深度分析
本研究提出一套三步法:以每頭注意力輸出參與比(PR)積分抓取頻譜信號,透過六類任務模式篩選形成候選電路,最後以分組消融與同層隨機對照做因果驗證。跨多種架構與尺度重複實驗發現,誘導電路通常由3–6個頭構成,且可辨識的專精頭比例約17–19%不隨規模大幅變動。
深度分析
醫療AI需求準確且可解釋的模型。研究把MedCLIP胸腔X光特徵餵入稀疏自編碼器(MedSAE),以稀疏化並拆解疊加表徵以提高語義單一性。作者再用MedGEMMA自動命名與量化對齊,結果顯示MedSAE特徵較原始嵌入更具臨床對應,朝透明且可驗證的醫療表示邁出一步。
深度分析
Anthropic在倫敦舉辦CodewithClaude開發者活動,展示ClaudeCode以自我提示與dreaming記錄強化自動化編碼流程。代理能自動測試、修正與互相學習,降低人為介入但也帶來審查與安全挑戰。這種變化快速滲透開發實務,影響生產力與治理。
深度分析
本報導解析一篇來自 ArXiv 的研究,追蹤蛋白質語言模型 ESM2-8M(6 層、8M 參數)如何在遮蔽序列首位時預測甲硫氨酸(M)。
深度分析
研究發現於現代 Diffusion Transformer(DiT)家族中,存在少數通道出現顯著較大激活(massive activations, MAs)。
深度分析
ActivationReasoning(AR)提出一條將形式化邏輯綁定於語言模型隱含激活的新路徑。先以稀疏自編碼器(SAE)發現可解釋的概念向度,推論時把這些向度映射為命題,再以使用者定義的邏輯規則進行組合與推導。
深度分析
Anthropic 推出自然語言自編碼器(NLA),透過「激活口述器」(AV)與「激活重建器」(AR)間的輪迴訓練,將語言模型的隱含激活轉換為人類可讀的文字說明。研究與預部署應用顯示,NLA 能揭露模型未在輸出呈現的思考痕跡,幫助抓出作弊行為、追蹤語言錯誤來源,並在審計遊戲中提高隱藏動機檢出的成功率。
深度分析
研究針對跨領域的視覺與語言模型,將HarmonicLoss中的歐幾里得距離換成多種非歐幾里得度量,評估其在準確度、可解釋性與碳排放上的表現。結果顯示餘弦距離在視覺任務上兼具精度與低能耗,其他度量則在解釋性上有不同權衡。此結果鼓勵業界探索度量驅動的綠色訓練。
深度分析
大型語言模型的多義性削弱了單一神經元的概念歸屬。研究發現神經元在不同概念下的激活幅度形成低重疊的高斯分佈。基於此提出 NeuronLens,以激活範圍進行解釋與干預,實驗證明可更精準控制概念且副作用更小。