深度分析
長時脈絡與任務式提示如何改善 MLLM(視訊+聲音)與 fMRI 腦活動對齊
研究以自然敘事電影和fMRI探討時間脈絡長度與任務提示如何影響多模態大型語言模型(MLLM)與大腦的對齊。採用視訊+聲音MLLM與單模視訊基線比較,並以角色動機、事件界標、多場景與敘事摘要作為提示。結果顯示延長片段時長顯著提升MLLM在高階語義腦區的對齊,而單模視訊模型未見同等收益。
深度分析
研究以自然敘事電影和fMRI探討時間脈絡長度與任務提示如何影響多模態大型語言模型(MLLM)與大腦的對齊。採用視訊+聲音MLLM與單模視訊基線比較,並以角色動機、事件界標、多場景與敘事摘要作為提示。結果顯示延長片段時長顯著提升MLLM在高階語義腦區的對齊,而單模視訊模型未見同等收益。
深度分析
大型語言模型服務面臨嚴苛延遲SLO與GPU記憶體限制。論文提出SuperInfer,結合RotaSched排程與DuplexKV雙工KV轉移,在GH200Superchip上透過主動旋轉與全雙工傳輸,大幅提升TTFT達成率並維持TBT與吞吐。
深度分析
事件背景:SpaceX在S‑1文件披露與Anthropic簽署高額算力合約。核心技術:合約賦予Anthropic在Colossus與Colossus II資料中心的GPU資源,換取每月巨額費用,反映訓練與推論對大規模算力的依賴;同時,業界有以蒸餾等方法降低算力門檻的技術路線。主要影響:此舉將改變AI供應鏈與治理焦點,拉高資本與監管敏感度。
深度分析
本文對以大型語言模型驅動的代理人支付協議(AP2)進行紅隊測試,發現透過提示注入可操縱代理決策並導致敏感資料外洩。研究提出Branded Whisper與Vault Whisper兩種攻擊,並以實驗驗證其對商品排序與授權流程的破壞,指出需強化隔離與檢測防護。
深度分析
單鏡頭影片重定向面臨視角缺失與幾何模糊問題。FreeOrbit4D提出訓練免疫框架:先於全域場景空間重建靜態背景與可見前景,再於物件典範空間以多視角合成補全前景幾何,藉密集像素對齊統一為幾何完整的4D代理,並在大角度軌跡下維持時間與幾何一致性。
深度分析
面對高品質AI合成音被濫用風險,研究提出HarmonicAttack,一種只需能產生目標水印樣本的學習型移除器,採雙路時頻自編碼器加上GAN式對抗訓練,能從多種水印中分離並回復聽感,測試顯示對AudioSeal、WavMark與Silentcipher具高移除能力且可近即時執行。
深度分析
加拿大實驗室Cohere發布CommandA+並以Apache2.0授權開放權重。模型採稀疏MoE架構,結合W4A4四位元量化與注意力保留,並支援多種低精度格式與大規模多模態上下文。原生引用標記可追溯外部資料來源,強調硬體效率與企業內部部署可行性。
深度分析
獨立研究者揭露Chromium中的未修補漏洞,相關驗證程式碼被公開。攻擊利用Browser Fetch與service worker在背景長期建立連線,可充當匿名代理、發動分散式服務阻斷或監控瀏覽行為,可被用於組成受控網絡。該漏洞對多款Chromium瀏覽器構成持續風險。
深度分析
面對MLLM在高解析度影像上表現不佳的問題,研究以分層解耦分析指出背景干擾而非物體尺寸是主因。提出HiDe結合TAD淨化注意力與LPD保留佈局進行重建,達到更精準的目標對齊與裁切。實驗顯示HiDe在多項HR基準上成為新的SOTA,並顯著降低記憶體使用。
深度分析
微軟針對 ASP.NET Core 的 Microsoft.AspNetCore.DataProtection 套件發布緊急修補,修正一項可讓未經驗證者在 HMAC 驗證階段偽造認證有效載荷、進而可能取得 SYSTEM 權限的高風險漏洞(CVE-2026-40372)。
深度分析
面對對齊後的大型語言模型被設計為拒絕有害輸出,本文提出 Faster-GCG,一套改良的離散代幣優化越獄方法。透過在梯度候選上加入距離正則、以貪婪決定性取樣取代隨機抽樣,以及去重避免迴圈,Faster-GCG 在多款開源模型上以更少計算成本達到更高攻擊成功率,且在封閉模型上展現較佳轉移性。
深度分析
長程視覺語言推理需決定何時重新規劃。本文讓承諾深度成為模型內可學習變數,由單一VLM同時預測執行動作與持續步數,實驗在SlidingPuzzle與Sokoban展現顯著效能提升。結果在多種決策預算下顯示自適應承諾在成功率與行動效率間取得更好平衡。值得進一步研究