多模態大型語言模型 - Agents Report

深度分析

研究以自然敘事電影和fMRI探討時間脈絡長度與任務提示如何影響多模態大型語言模型(MLLM)與大腦的對齊。採用視訊+聲音MLLM與單模視訊基線比較，並以角色動機、事件界標、多場景與敘事摘要作為提示。結果顯示延長片段時長顯著提升MLLM在高階語義腦區的對齊，而單模視訊模型未見同等收益。

A-QBAF

網路影像與影片正成為謠傳重要載體，驗證需同時兼顧結論與可檢視的推理。本文結合多模態大模型與外部檢證工具，並用A-QBAF將證據轉為具來源與強度的支持與攻擊論點，採小型區段論證圖與不確定性升級處理衝突。示範結果顯示分段式報告可提供透明且可編輯的驗證流程。

多模態大型語言模型

符號回歸旨在從觀測資料萃取可解釋的數學表達式，但傳統方法難以以自然語言直接納入專家先驗。

深度分析

多模態大型語言模型已在多平台部署，視覺前處理與編碼大幅提升延遲與記憶體需求。研究提出RPS‑Serve，將請求分為岩石（影片）、礫石（圖片）與沙子（文字），以資源感知排程優先處理沙子，並加入老化防止飢餓。實驗顯示，平均首字元時間縮短54%，對延遲敏感請求更減少78.5%。

深度分析

隨著文字轉圖模型快速進步，傳統的MOS標註已無法跟上品質上限的漂移。ELIQ以自動構造的正負影像對，結合多模態模型指令微調，提供視覺品質與提示對齊的雙維評分，且不需人工標籤。實驗顯示在多項AIGC與UGC基準上均超越既有無標籤方法，並可直接應用於未來模型迭代。

深度分析

香氣與記憶、味覺緊密相連，長期以來一直是人機互動的挑戰。AromaGen 以多模態大型語言模型為核心，將文字或影像即時轉換成 12 種基礎氣味的配比，並透過頸部可穿戴噴霧器釋放。系統支援自然語言回饋，透過少次迭代即可微調香氣。

深度分析

多模態持續指令調校面臨感知漂移與推理崩潰雙重遺忘。MAny框架以跨模態投射合併與低階參數合併同步修復，並採用遞迴最小平方法提供閉式最適解。實驗顯示在UCIT基準上提升最高8.57%，顯著提升模型穩定性與效能。

深度分析

隨著多模態大型語言模型推進 GUI 自動化，長程任務受限於上下文過載與冗餘模組。MGA 以觀察先行與結構化記憶分離決策步驟，取代原始歷史聚合，降低認知負擔。實驗顯示其在 OSWorld 等開放式任務中保持高效表現，為下一代 GUI 代理提供可擴展路徑。

多模態大型語言模型

本研究針對人體活動辨識的需求，提出將眼動追蹤資料視覺化作為多模態大型語言模型的輸入方式。透過時間線、熱圖與掃描路徑三種視覺提示，於不同時間窗口測試三個公開資料集。結果顯示此方法能以較少 token 表徵高頻感測資料，提升模型效能與可擴展性。

深度分析

行動 GUI 代理在執行任務時常忽視使用者隱私需求。本研究提出 TIPO，利用偏好強度加權與填充門控，針對隱私導向的執行軌跡進行優化。實驗證明在多項 GUI 任務中，TIPO 同時提升任務成功率與隱私合規性，顯示其在個人化 AI 代理領域的潛在價值。

生成式AI

隨著多模態大型語言模型快速迭代，環境衝擊成為關注焦點。本研究以 Kyutai 開發的 Moshi 基礎模型為例，細分 GPU 計算時間、實驗失敗與除錯階段，並以全生命週期評估量測能源、水資源與碳排放。結果顯示，完整研發過程的環境成本遠高於僅計算最終訓練的碳足跡，提供降低計算與永續研發的具體建議。

CSPO

表格影像轉 LaTeX 時常因獎勵模糊化失真。CSPO 為結構、樣式、內容分別給予獎勵，僅回傳至相關 token，降低干擾。實驗證明其在三大指標上均優於傳統 RL，提升生成可靠性。