深度分析 視覺支架 (Visual Scaffolding) 與 RAG:以增量示意影像建立情境對話共識表徵 情境對話需維持可追溯且持久的共識表徵,以免語義細節被壓縮成模糊描述。研究提出「視覺支架」,將對話狀態增量外化為示意影像,結合風格即語意設計以標示確定性,同時保留文本摘要以覆蓋不可示意的信息。實驗顯示增量外化勝過一次性全文推理,混合多模態效果最佳。