深度分析
uDTW:將不確定性納入動態時間規整以強化序列與視覺 token 對齊
對齊結構化資料是電腦視覺與機器學習的核心問題,但傳統方法依賴確定性相似度,易受異質性與噪聲影響。本文改寫自 ArXiv 提案,提出不確定度導向的對齊框架 uDTW(uncertainty-DTW):以每對對應關係建立常態分布,並透過最大概似目標整合精度加權匹配項與對數變異數正則化,抑制不可靠特徵並避免退化解。
深度分析
對齊結構化資料是電腦視覺與機器學習的核心問題,但傳統方法依賴確定性相似度,易受異質性與噪聲影響。本文改寫自 ArXiv 提案,提出不確定度導向的對齊框架 uDTW(uncertainty-DTW):以每對對應關係建立常態分布,並透過最大概似目標整合精度加權匹配項與對數變異數正則化,抑制不可靠特徵並避免退化解。
深度分析
研究背景:只觀察時間邊際分佈、無軌跡資料時,梯度勢場會導致難學的震盪解。本文以連續性方程弱形式並利用規格自由度,提出非梯度推斷流(NGIF)來參數化一般向量場,並用旋度或散度正則化選擇場結構。實驗顯示非梯度方法在分佈擬合與流場規則性上優於梯度限制基線。
深度分析
本文把自回歸語言模型的鍵值(KV)快取壓縮,形式化為以下一步查詢作為解碼端側資訊的逐序Wyner–Ziv來源編碼問題。作者在多個公開模型與語料上測量到:模型對上下文截斷的敏感性並非指數衰減,而呈現多項式(power-law)衰減;
深度分析
現代語言模型在網路服務中廣泛應用卻仍易受對抗攻擊。SEP-Attack以DPP取樣產生多樣化替代模型權重,再用加權信心估算字詞重要性以生成候選替換,最後以轉移性得分篩選有效對抗樣本。實驗於四資料集及兩雲端API展現優於既有方法的攻擊能力與效率。
深度分析
這篇研究將語言模型的「操控」(steering)重新框為黎曼幾何上的測地線問題,提出以幾何感知生成自編碼器(GAGA)學習一個輸出空間 Hellinger 距離的拉回度量,作為在激活空間上計算路徑的代理。
深度分析
多模態檢索常用單一向量(single-vector)做全域比對,但會壓縮掉局部證據,影響細節敏感任務的準確度。
深度分析
臨床SOAP筆記自動化評估對具推理能力的大型語言模型進行來源感知測試,交叉比較推理模式與同源檢索(RAG)對產出影響。實驗涵蓋三個資料集、七項自動指標與兩位LLM評審,發現開啟原生推理並不穩定提升品質,反而在多數情況降低表現;同源RAG則帶來有限且具模型依賴性的改善。
深度分析
CrowdStrike、FBI與Verizon報告指出金融業遭遇以語音釣魚與OAuth裝置代碼濫用為主的新型入侵。攻擊者透過冒充IT客服要求MFA重設或誘導進行裝置代碼驗證,取得可長期使用的存取權。結果顯示傳統以密碼與單層MFA為主的防護面臨結構性失衡,防守重點須轉向令牌與會話層面的偵測與控管。
深度分析
在GoogleI/O上,Google宣布將多數GeminiCLI用戶轉移到封閉的AntigravityCLI。Antigravity主打代理人導向的開發平台,具備伺服端執行與終端整合,能在後台協調多代理人;但目前功能未完全對等,非開源且配額嚴苛,引發使用者反彈,企業與持有API金鑰者例外。
深度分析
研究指出既有次模目標僅優化被選子集而忽略剩餘資料的結構。本文提出補集次模資訊(CSI),透過同時最大化子集與其補集的結構資訊,衍生多種補集感知目標並在隱藏語義切片與去雜訊挑選上展現顯著改善。同時抑制孤立異常點並提升下游預測效能。對資料分割與基準建構具實務意義。
深度分析
研究以BiomedCLIP將大型視覺-語言模型作為弱標註,校準三個醫學影像基準的噪音標籤轉折位置。比較多種下游架構並提出可用十至二十個金標判定是否採用弱標註的決策規則。結果在三個資料集複現轉折現象,超過轉折後加入弱標註會降低AUC。研究亦比較結構性與隨機錯誤的差異,指出評估邊界需納入標籤空間投影。
深度分析
檢索增強生成常以單向量平均,但當相關集中於短子段時會被周遭噪聲稀釋。頻譜檢索以多尺度sinc在token軸做卷積平滑,跨尺度取最大相似度,介於meanpool與per-token MaxSim之間。實驗於合成與LIMIT-small顯示明顯召回與排序改善。