Stable Diffusion - Agents Report

深度分析

擴散模型注意力時序視覺化：結合 DAAM 與時間線提升人機協作

本研究提出視覺分析框架，逐步追蹤擴散模型跨注意力圖，結合熵指標與空間競爭視圖，揭示生成過程階段性變化，示範於 60 組結構化提示，證明可加速人與 AI 的協同探索。透過時間線、相位分段與 token 對比視窗，使用者能快速定位注意力集中與轉移時機，提升對生成影像的解釋能力。

深度分析

AI 裸化在 4chan：Stable Diffusion 與 Wan 生成非合意影像的供應鏈與影響分析

研究發現，AI裸化已從名人擴散至普通人，4chan上55.8%目標為非名人，開源模型StableDiffusion生成42.4%圖片，Wan產生66.5%影片；技術門檻下降、匿名需求與少數活躍提供者共同推動此危害，使普通民眾面臨前所未有的風險。

深度分析

SODA 框架量化生成式影像模型的物件層面人口偏見

隨著文字生成影像模型廣泛應用，研究聚焦於人物偏見，但物件也可能受人口特徵影響。研究者提出SODA框架，透過受控提示與視覺屬性自動抽取，比較中性與人口條件生成的差異。實驗顯示模型在顏色、形狀等屬性上出現明顯族群刻板，甚至中性提示亦隱含中年白人偏好。

深度分析

CCE‑Diffusion 框架提升前景條件外延繪製的語意對齊與雜訊抑制

商家為降低商品展示成本，採用前景條件外延繪製(FCO)技術。然而，文字驅動的FCO常產生與前景語意相同的背景雜訊。研究提出自訂概念嵌入擴散(CCE‑Diffusion)模組，透過實例感知損失與語意保留提示，顯著減少雜訊並提升圖像品質。此技術有望成為電商影像生成的新標準。

深度分析

利用 LoRA 與 3D 代理實現姿態可控的影像插入—DIRECT 框架解析

物件插入技術近期透過參考式影像生成取得突破，但多數仍停留在 2D 平面，缺乏對 3D 姿態的明確控制。研究團隊提出 DIRECT 框架，將插入條件分解為外觀引導、幾何引導與場景上下文，並以使用者調整的 3D 代理作為幾何條件，透過獨立的 LoRA 通道注入，避免特徵混雜，同時保留參考物件的細節、遵循指定姿態並與背景融合。

Android AI

Android 上的 llmedge：支援 GGUF、Whisper、Stable Diffusion 的全本地多模態 AI 推論框架

llmedge 是一套以 Kotlin 撰寫的輕量 Android 原生 AI 推論庫，透過 llama.cpp 的 JNI 介面在裝置上直接執行 GGUF 格式的語言模型。它內建模型下載與快取機制，支援低階設備的 ModelPresets，並提供 Safetensors 轉 GGUF 的即時量化功能。

深度分析

CLIP 嵌入與填充向量導致 Stable Diffusion 記憶復現的機制分析

這篇研究指出，Stable Diffusion在復現訓練集影像的「記憶復現」問題，與CLIP文字編碼的嵌入結構有密切關聯。作者發現，模型並非過度依賴 prompt 的逐字嵌入，而是被填充（pad）位置的一組近乎重複的〈eot〉嵌入放大影響，進而驅動精確重現。

深度分析

文本條件擴散模型下的語意比較：以影像分布衡量文本相似度（含 Stable Diffusion 實驗）

為突破文字表述的細微差異，研究以文本在擴散模型中所「召喚」的影像分布作為語意相似度衡量；核心做法是比較兩組文本條件下逆時序擴散 SDE 的 Jensen–Shannon 散度並以蒙地卡羅估算；結果顯示其與大型語言模型的 zero-shot 方法相當，且能產生影像層面的可解釋視覺化。

深度分析

MaMe & MaRe：矩陣化令牌合併與復原技術加速 Vision Transformer 與 Stable Diffusion

本研究針對視覺轉換器的自注意力計算瓶頸，提出全矩陣運算的 MaMe 令牌合併與 MaRe 復原技術，於 ViT‑B 提升兩倍吞吐僅降 2% 準確度，並在多項任務展現加速與品質提升。

深度分析

雙投影閉式概念抹除：零訓練線性轉換技術在 Stable Diffusion 的應用與效能

隨著生成式模型安全需求提升，研究者提出雙投影閉式概念抹除技術，利用兩步線性變換先投影目標概念再於左零空間施加受限變換，實現快速且理論可證的概念移除。實驗證明在多款 Stable Diffusion 與 FLUX 上表現媲美或優於現有方法，且更好保留非目標概念。