Agents Report | 代理人報告 (Page 70)

深度分析

「Gemma 4」多模態語言模型：思考模式與長上下文效能新突破

Gemma 4 為新一代開源多模態語言模型，提供2.3B至31B參數的密集與MoE版本，加入思考模式與統一無編碼器架構，提升推論速度、記憶體與長上下文效能，並採用KV快取共享、p‑RoPE位置編碼與多代幣推測抽稿頭以降低資源需求。實驗顯示在STEM、視訊與長文檔測試上與更大模型相當。

深度分析

IsoLoCo 與 Iso‑C：提升 DiLoCo 低通信分散式訓練效能的模型合併方法

隨著大型語言模型訓練成本攀升，分散式低通信方法 DiLoCo 透過本地多步更新降低通訊，但隨著工作節點與本地步數增加，效能會退化。研究將模型合併技術引入 DiLoCo，利用 Iso‑C 及其改良版 IsoLoCo 取代簡單平均，實驗顯示在多工作者設定下顯著縮小與全同步資料平行訓練的差距。

深度分析

利用大型語言模型注意力機制提升 Diff Risk Score 之程式碼變更風險解釋

在大型科技公司，研究者利用LLM產生的注意力權重，將程式碼差異（diff）映射至行、區塊與檔案，以突出高風險區段。實驗顯示，標示前兩個最危險區塊即可覆蓋53.85%的故障行，且僅需審查約26%的變更行數。此方法不需額外訓練，能在即時推論時提供低延遲提示，適用於大型開發流程。

深度分析

同質-異質分割結合忠實度與多樣性提升合成影像篩選效能

研究指出，固定的合成影像池可透過同質與異質分割選取具高語意相符且多樣性的子集，以提升下游模型效能，且在多項基準上以最高40%更少樣本匹敵真實資料表現。該篩選機制不依賴生成器再訓練，兼具忠實度與多樣性平衡，為生成式模型的資料後處理提供通用解決方案。

深度分析

大型語言模型的領域特定消除：降低網路安全拒絕率的實驗與分析

研究指出安全對齊在大型語言模型中未區分領域，導致網路安全操作受限。作者利用正交投影從模型權重中移除特定拒絕向量，對1兆參數Kimi K2進行領域特定消除。結果顯示網路安全拒絕率從100%降至7%，而其他領域的安全防護仍基本保留。此外，研究發現安全訓練方式與模型架構是影響領域特定消除成效的關鍵因素。

深度分析

S‑EMBER 基準：穿戴式智慧眼鏡即時回憶與時間定位挑戰

隨著穿戴式智慧眼鏡持續錄影，研究團隊推出 S‑EMBER 基於 Ray‑Ban Meta 智慧眼鏡蒐集 388 小時影片，建立串流式自我記憶檢索基準，並提供 9,448 個需視覺證據的問答。測試顯示模型在語意推理上隨參數增長提升，但時間定位精度仍停滯，成為關鍵瓶頸。

深度分析

大型語言模型驅動的知識架構：從資料工件到可執行知識的演進

隨著大型語言模型與檢索增強生成技術成熟，企業開始將組織知識視為可執行基礎建設，提出知識架構概念，將資料工程的保證延伸至知識工件，預期提升知識的可治理性與即時應用。此轉變促使企業重新思考知識的版本管理、來源追蹤與品質驗證，並催生類似維基式的知識庫與開放格式作為早期示例。

深度分析

DeltaVid：利用跨影片差異訓練提升 Video MLLM 細粒度時空感知能力

影片多模態大語言模型已提升開放式理解，但仍缺乏細緻時空感知。研究提出 DeltaVid，將跨影片找差異轉為可訓練感知信號，並建構 DeltaVid-10K 與 DeltaVid-Bench 供訓練與評估。實驗顯示，框架顯著提升模型在局部變化偵測與多項影片基準上證明跨影片差異是提升細粒度時空推理的有效方式。

深度分析

擴散模型注意力時序視覺化：結合 DAAM 與時間線提升人機協作

本研究提出視覺分析框架，逐步追蹤擴散模型跨注意力圖，結合熵指標與空間競爭視圖，揭示生成過程階段性變化，示範於 60 組結構化提示，證明可加速人與 AI 的協同探索。透過時間線、相位分段與 token 對比視窗，使用者能快速定位注意力集中與轉移時機，提升對生成影像的解釋能力。

速報

OpenClaw 單節點最佳化：GLM-5 3072/TP4/PP4 配置提升效能

OpenClaw 服務在長前置工作負載下需提升效能。研究在單節點環境調整 chunked‑prefill、張量平行與管線平行參數，最佳配置為 3072/TP4/PP4/最大 24 同時請求。此設定將請求吞吐提升至 0.48 req/s，平均回應時間降至 6.69 秒，估計服務成本下降約 10%。

深度分析

突破連續 MDP 規劃視野瓶頸的 GPU 加速圖形稀疏抽樣

研究針對連續MDP規劃提出GraphSparseSampling(GSS)演算法，透過共享未來狀態層代替逐一抽樣子樹，利用GPU大批次運算提升抽樣效率。實驗顯示在長視野控制任務上，GSS超過傳統MCTS，接近最佳表現。理論上證明在符合重疊與覆蓋條件下，樣本複雜度僅為多項式，克服樹形抽樣的指數視野瓶頸。

深度分析

TacReasoner：結合動態觸覺編碼與 Chain‑of‑Thought 推理的 7B 機器人模型

觸覺是人類基本感官，TacReasoner提出動態感知編碼器與首個觸覺思考鏈資料集TouchCoT-10k，並建構DynTac-Bench評測。實驗顯示7B模型在多項測試上超越14BVTV-LLM，證明其在真實環境觸覺推理的效能與效率與可擴展性。

Latest

「Gemma 4」多模態語言模型：思考模式與長上下文效能新突破

IsoLoCo 與 Iso‑C：提升 DiLoCo 低通信分散式訓練效能的模型合併方法

利用大型語言模型注意力機制提升 Diff Risk Score 之程式碼變更風險解釋

同質-異質分割結合忠實度與多樣性提升合成影像篩選效能

大型語言模型的領域特定消除：降低網路安全拒絕率的實驗與分析

S‑EMBER 基準：穿戴式智慧眼鏡即時回憶與時間定位挑戰

大型語言模型驅動的知識架構：從資料工件到可執行知識的演進

DeltaVid：利用跨影片差異訓練提升 Video MLLM 細粒度時空感知能力

擴散模型注意力時序視覺化：結合 DAAM 與時間線提升人機協作

OpenClaw 單節點最佳化：GLM-5 3072/TP4/PP4 配置提升效能

突破連續 MDP 規劃視野瓶頸的 GPU 加速圖形稀疏抽樣

TacReasoner：結合動態觸覺編碼與 Chain‑of‑Thought 推理的 7B 機器人模型