速報
TRAJEVAL:解析代碼代理軌跡,揭露一致性崩潰為主要失敗源
研究檢視代碼代理在程式修補任務的失敗與成因。TRAJEVAL將軌跡切分為搜尋、閱讀與編輯三階段,對齊參考補丁評估行為。跨三種架構與七款模型,檢視16758條軌跡;代碼代理解決65-70%議題,但餘下失敗多由編輯品質造成。在編輯殘留問題中,主要主題為一致性崩潰:代理抵達正確程式後覆寫或反覆破壞有效補丁。
速報
研究檢視代碼代理在程式修補任務的失敗與成因。TRAJEVAL將軌跡切分為搜尋、閱讀與編輯三階段,對齊參考補丁評估行為。跨三種架構與七款模型,檢視16758條軌跡;代碼代理解決65-70%議題,但餘下失敗多由編輯品質造成。在編輯殘留問題中,主要主題為一致性崩潰:代理抵達正確程式後覆寫或反覆破壞有效補丁。
深度分析
研究警示多數時變因果模型假定已知因果網路,實務罕見。本文提出DCNAR:以神經自迴歸發現稀疏有向結構,將其作為時變網路自迴歸的結構先驗。實驗顯示在未知結構下,DCNAR能產生穩定且可解釋的脈衝反應與反事實軌跡,並在短序列面板資料展示一致行為,對社會科學與政策模擬具實務價值。
深度分析
面對數據來自流形的情境,傳統降維難以反映切向量場與特徵類。本研究以多圖表自編碼器建構學習到的圖冊,並從轉換映射的雅可比行列式符號推導第一Stiefel–Whitney類,提供可演算法檢測可定向性,同時說明特徵類會阻礙單一座標表現,並示範於低維可定向與非定向流形以及高維非定向影像資料集上的應用與驗證
深度分析
擴散模型在影像與影片生成上表現優越但推論昂貴。LESA以可學習的Kolmogorov–Arnold Network為核心,採多階段多專家設計並透過兩段式訓練學習時序特徵預測,能針對高噪、中段與細節階段分別預測特徵。實驗顯示在多個大型模型上達到數倍加速並維持或提升視覺品質。
深度分析
面對多模態連續指令微調的遺忘難題,研究提出 Same,一套穩定化 Mixture‑of‑Experts 作法。藉由光譜感知路由分解任務子空間、曲率感知縮放守護專家權重,並以自適應激活凍結選中專家以降低跨任務干擾。實驗顯示在保留舊任務能力與運算效率上較現有方法更穩定,具部署價值。
深度分析
本篇系統性回顧匯整337篇關於Transformer語言模型(TLMs)對句法知識評估的研究,包含1,015項模型結果。作者分析方法類型(行為、探針、機制),揭示研究過度集中於英語與少數模型(如BERT),且模型在形式句法現象表現相對穩健,但在語法—語意交界(例如指代綁定、filler–gap)上表現較弱且變異大。
速報
背景:監督微調常用逐詞重權。RankTuner提出相對排名指標,比對真實標記排名與其在預測分布下的期望排名。再以該指標倒數作為逐詞尺度來重權,使更新聚焦於真正未學到的標記,減少對先驗不確定位置的過度處罰。實驗顯示在數學推理、異分布推理與程式碼生成前期,RankTuner勝過機率或熵單一重權基線。
NCSAM
帶標註錯誤的資料是深度學習常見問題,會使訓練梯度偏移、導致模型過度記憶錯誤樣本並降低泛化。本文從理論面探討標註噪聲與損失地形平坦性之關係,指出既有的銳度感知最佳化(SAM)在噪聲情況下會遭遇更新偏差。
深度分析
隨著大型語言模型在臨床應用的增加,評估其醫療安全成為必要。JMedEthicBench 提出首個以日本醫師會67項指引為基礎的多回合醫療安全基準,透過自動化發現七種 jailbreak 策略生成逾五萬組對話,對27款模型進行評測。
深度分析
面對長文本與跨段證據的複雜推理需求,研究提出超圖記憶機制HGMem,將記憶建構為超邊集合,透過更新、插入與合併逐步形成高階關聯,並以超圖拓樸指引子查詢與檢索,讓模型以結構化命題展開推理。實驗證明HGMem在多項全域理解任務中優於既有RAG基線,並兼顧效能與成本。
深度分析
本文從縮放律與訓練穩定性的矛盾出發,針對深度ResNet在深度尺度上為何失效提出新的理論視角。研究在聯合無限寬與無限深極限,為前向與反向通道導出一組耦合隨機微分方程,稱為「神經特徵動力學」(NFD)。NFD說明在1/√depth殘差縮放下,會出現使前向與反向動態獨立的消失機制,從而再次使梯度獨立假設(GIA)在極限成立;
深度分析
隨著開源軟體的廣泛採用,漏洞利用風險提高,現有自動化漏洞檢測多侷限於函式級別、固定輸入或靜態偏好資料集,難以重現人類對跨檔案、跨程序的情境推理。