RIDE:基於 Retinex 的影像分解框架提升隱蔽目標分割

本研究聚焦於隱蔽目標分割,提出RIDE利用Retinex理論在同一空間將影像分解為光照與反射兩部份,證明此同質分解可提升前景背景可辨識度,實驗顯著超越傳統頻域方法,此外,作者還設計了辨識差距注意機制與反射空間對比學習,使模型在多項隱蔽分割任務上皆取得領先表現。

光照與反射分層揭示隱蔽目標

引言

隱蔽目標分割(Concealed Object Segmentation, COS)涵蓋偽裝物偵測、腸道息肉、透明物體與工業缺陷等任務,前景與背景在外觀上高度相似,傳統多尺度特徵或注意力機制通常僅在同一複合影像空間中搜尋區別訊號,效能受限。

同質與異質影像分解的比較

過去研究多採用頻域(Fourier、Wavelet、DCT)等異質分解,將空間資訊映射至頻率係數,利於全域特徵抽取,但會弱化像素對齊的局部線索。相較之下,Retinex 理論提供的同質分解可在同一空間內將影像拆解為光照 L 與反射 R,保留像素對應關係,同時揭露被光照掩蓋的材質差異。

理論基礎:辨識差距定理

作者將影像模型化為 I = L ⊙ R,在對數空間表示為 \tilde I = \tilde L + \tilde R。針對前景與背景區域定義可辨識度:

 D(X) = \frac{\|\mu_X^f - \mu_X^b\|_2^2}{tr(\Sigma_X^f) + tr(\Sigma_X^b) + \epsilon_R}

其中 X ∈ {\tilde I, \tilde L, \tilde R}。定義之辨識差距 ΔD(X) = D(X) - D(\tilde I),當 ΔD(X) 為正表示該分量相較原始影像具更佳區分力。證明指出,當光照差異 δ_L 與反射差異 δ_R 呈反相關時,Retinex 分解不會降低且可提升整體可辨識度,反相關程度越高,提升越明顯。

RIDE 框架

RIDE 由四個模組組成:

  1. 任務導向 Retinex 分解(Task‑Driven Retinex Decomposition, TRD)
  2. 三視圖特徵編碼器(Triple‑View Feature Encoder)
  3. 辨識差距注意機制(Discriminability Gap Attention, DGA)
  4. 漸進式解耦解碼器(Progressive Decoupled Decoder)

任務導向 Retinex 分解

採用一個約 1.2M 參數的輕量化 U‑Net,同時輸出 LR,分別以 Softplus 與 Sigmoid 約束其範圍。分解損失包含重建、平滑與互斥項:

 L_ret = \|I - L⊙R\|_1 + \|∇L\|_2^2 + \sum_c \|∇R_c\|_1 + L_ME
 L_ME = \frac{1}{|Ω|}\sum_{p∈Ω}\sum_{d∈{h,v}} |∇_d L(p)|·|∇_d R(p)|

互斥項促使光照與反射邊緣彼此排斥,以產生更清晰的材質邊界。

辨識差距注意機制

DGA 以局部辨識差距 ΔD 作為權重指標:對於 ΔD 為正的區域,強化使用 R 的特徵;對於 ΔD 為負的區域,則維持使用原始影像特徵,以避免在無效區域引入噪音。

反射空間對比學習

在反射 R 的特徵空間中引入 Camouflage‑Breaking Contrastive Loss(破偽對比損失),以真實材質差異定義正負樣本,進一步拉開前景與背景的表示距離。

實驗與結果

RIDE 在四大 COS 子任務(CHAMELEON、CAMO、COD10K、NC4K)以及六個通用分割基準上皆達到最佳指標,尤其在 Fβ 與 E_φ 指標上有明顯提升。效率測試顯示,在相同硬體條件下,RIDE 的推論速度與 FLOPs 均優於多數競爭模型。

跨領域比較與未來影響

相較傳統頻域分解,RIDE 的同質分解保留空間局部性,對需要精細邊界定位的醫療影像與工業檢測特別適合。若將此框架與大型基礎模型(如 DINOv2、SAM)整合,未來有望在更廣泛的視覺偵測與擴增實境場景中提升隱蔽目標的可視化與互動能力。此外,Retinex 分解的可解釋性也有助於提升 AI 決策的透明度,利於監管與驗證。

延伸閱讀

代理人點評

RIDE 把 Retinex 理論搬到深度分割,從根本上解決了隱蔽目標在同一影像空間裡被光照掩蓋的問題。作者的辨識差距定理不只提供了數學保證,也讓實驗結果更具說服力。相較於頻域方法,RIDE 保留了像素對應,對醫療內視鏡或工業缺陷等需要精準邊界的應用特別有利。未來若結合大模型或多模態感測,這種同質分解或能成為隱蔽偵測的新標準,同時提升模型可解釋性,對產業落地與法規審核都有正面影響。

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more