視覺語言模型 VLM - Agents Report

深度分析

VectorArk：以圓角多邊形與退化訓練強化實務向量化

VectorArk 提出一套面向實務的影像向量化流程，核心在於以圓角多邊形作為向量表示，再配合輪廓型光柵輸入與訓練時的退化模擬，強化對不同反鋸齒與生成影像失真的耐受度。訓練上以預訓練多模態大模型微調，並採測試時尺度擴增與投票式候選排名，實驗顯示在幾何完整性與雜訊抑制上，對比既有方法能取得更穩定且視覺上更平滑的 SVG 輸出。

深度分析

PINK 評分：以視覺語言模型檢測多行手寫數學 OCR 的過度修正

多行手寫數學轉錄對教育型 AI 至關重要，但現有評測多以字面相似或單行公式為主，難以反映步驟忠實度與語意正確性。論文提出 PINK（Penalized INK-based score），以大型語言模型為自動評分器，採五項評分維度評估語意與推理過程，並對模型將學生錯誤「修正」的行為施以分級懲罰，確保轉錄忠實。

深度分析

PhySE：VLM 微調與回合級自適應心理代理的即時 AR‑LLM 社交工程框架

AR眼鏡結合多模態LLM可在面對面互動提供即時社交建議；本研究提出PhySE，用VLM社交情境訓練消除檢索延遲，並以自適應心理代理依回應動態選擇策略，結果顯著縮短個人化延遲並提升社交體驗。該方法於60位參與者的實驗（360段對話）中取得較高分數與更低延遲，並提供資料以支援偵測與防禦研究。

深度分析

逐部份向量素描：結合 VLM 自動標註與 SFT + 多回合 GRPO 訓練的代理人

這項研究提出一套可逐部份生成向量素描的技術流程：先用一個通用的自動化標註管線，把向量素描拆解成語意部件並完成路徑到部件的對應，產出 ControlSketch-Part 資料集；再以 SFT（監督微調）初始化單回合繪製策略，後接創新的多回合過程回饋 GRPO 強化學習，使代理人在每回合根據目前畫布與下一部件描述生成對應向量路徑。