自監督學習 - Agents Report

深度分析

AV-JEPA：無解碼器與對比學習的音視訊自監督學習架構

AV-JEPA 將 LeJEPA 擴展至音視訊領域，使用早期融合 ViT 與模態丟失實現潛在空間跨模態預測，無需解碼器或對比學習。在 VGGSound 達到 57.1% top-1、AudioSet 32.7 mAP，並支援零樣本跨模態檢索，展現理論引導的簡潔架構潛力。

深度分析

基於 Transformer 的 JA4‑JEPA：跨視圖自監督學習在資安指紋中的應用

研究探討將JEPA風格的預測學習套用於JA4系列指紋，使用Transformer訓練混合資料集，於TLS、DNS、SSH三類協定上以凍結kNN取得0.922的準確率，證明即使視圖不完整亦能產生有用嵌入。同時在2.1M產線指紋對照的異常偵測基準中，預測能量信號亦勝過頻率、最近鄰、重建等方法。

深度分析

基於自監督 Wav2Vec2 的即時音訊深偽偵測：在瀏覽器本機保護隱私與提升效能

隨著生成式語音技術普及，音訊深偽成為媒體與事實查核的威脅。研究者以截斷的自監督模型Wav2Vec2結合輕量線性分類器，於瀏覽器內即時偵測，提升準確度10%並加速40%。在六組跨領域測試資料中，平均錯誤率降至8.4%，顯著優於傳統CNN模型。此方案兼具隱私與效能。

深度分析

GOT‑JEPA 與 OccuSolver：提升通用物件追蹤的模型適應與細粒度遮蔽感知

通用物件追蹤面臨遮蔽與未見目標的挑戰，GOT-JEPA以教師‑學生預測框架讓模型在乾淨與受損影格間學習偽追蹤模型，OccuSolver進一步結合點追蹤與物件先驗，細緻估算可見點。實驗在七項基準上證實其在遮蔽與變形情境下顯著提升成功率與精度。

速報

自監督圖神經網路結合時間戳記提升入侵偵測效能

圖神經網路因能捕捉網路流量間的關係結構，在入侵偵測系統（NIDS）中被廣泛採用。然而，多數現有模型將流量視為時間上獨立的樣本，無法因應攻擊手法的演變，也因依賴有標註資料而限制了對未知攻擊的泛化能力。

深度分析

UR‑JEPA：以均勻可矩形性正則化提升自監督視覺嵌入預測模型

研究背景：自監督的聯合嵌入預測模型易陷入表示崩解。核心技術：UR‑JEPA 以均勻 n‑可矩形性測度，透過高斯核平滑的 Carleson 方程與 Jones β 數字，取代 LeJEPA 的等向高斯正則化。結果顯示在 ImageNet‑10 上提升 0.83 個百分點，且種子變異降低約三成。

深度分析

PEIRA：以迴歸器對齊最大化跨視圖可預測性，連結自蒸餾與非線性 CCA

研究以非對比自監督框架探討自蒸餾類JEPA動態，提出PEIRA透過最大化最佳線性迴歸器跡值並控尺度，理論排除了坍縮為穩定解的可能，並揭示其與經典CCA的對應關係，說明正則化會隱式選擇有效維度，並在ImageNet與CIFAR實驗驗證理論與魯棒性

深度分析

ToxiAlert：以 wav2vec2 自監督表示結合旁語言訊號的語音毒性偵測

語音平台上毒性難以僅靠文字過濾。本研究發布ToxiAlert-Bench並提出ToxiAlert雙頭模型，將自監督語音表示與多階段訓練、類別平衡抽樣和加權損失結合以區分文本與旁語言來源。實驗顯示Macro-F1相對提升21.1%，準確度相對提升13.0%。

深度分析

3D 醫療影像的資料分配優化：基於 Masked Autoencoder 的轉移感知尺度律

臨床影像跨CT、MRI、PET等異質領域。研究以MAE與尺度律建模，提出轉移感知資料分配，將混合策略化為閉式優化。透過域別尺度指數與非對稱轉移矩陣，從小規模代理外推至大預算，揭示樞紐—孤島結構並顯著降低MAE、提升下游分類與分割表現。實驗顯示對比傳統按資料量抽樣，可在MAE損失上最多改善58%，並對未見預算具良好外推性。

深度分析

自監督編碼器的資訊瓶頸與 SIGReg 分佈正則化深度解析

資訊瓶頸理論指出，編碼器需在壓縮輸入與保留預測資訊間取得平衡。研究將 IB 重新詮釋為以 KL 為失真度的率失真問題，證明最佳表徵等同於在機率單純形上的軟式聚類，並提出 SIGReg 作為高斯放寬的分佈正則化。實驗在簡單任務與 FashionMNIST 上驗證了理論的率‑失真權衡，顯示此正則化可在缺乏標籤的情況下提升學習效能。

深度分析

自監督視覺規劃：以深度預測結合 MILP 校正學習升階動作模型

隨著深度視覺預測技術的成熟，研究者開始探索僅以狀態影像學習升階（lifted）動作模型的可能性。本文提出一個同時預測狀態、動作與升階模型的深度學習框架，並引入混合整數線性規劃（MILP）作為外部邏輯校正機制，避免預測崩潰與自我強化錯誤。

深度分析

自監督學習新趨勢：預測表徵學習與 JEPA 的實驗比較

自監督學習近年聚焦對齊與重建，本研究引入預測表徵學習以預測未觀測資料。提出 PRL 分類，將 JEPA 視為典範，實驗顯示 BYOL 與 I‑JEPA 在準確度與魯棒性上較均衡，預示此方向將重塑 AI 研發與商業應用。