深度分析
烏克蘭法律文本的分詞效率與零樣本評估:Llama 4 Maverick、Qwen3 與 Nemotron Super 3 比較
本報告以烏克蘭法院判決為語料,系統化比較七款商業與研究基礎模型在分詞效率(tokenizer fertility)與下游法律任務的零樣本與少樣本表現。結果顯示:分詞肥度在模型間差異達約1.6倍,Qwen 系列在烏克蘭語上消耗顯著較多 token;
深度分析
本報告以烏克蘭法院判決為語料,系統化比較七款商業與研究基礎模型在分詞效率(tokenizer fertility)與下游法律任務的零樣本與少樣本表現。結果顯示:分詞肥度在模型間差異達約1.6倍,Qwen 系列在烏克蘭語上消耗顯著較多 token;
深度分析
MobileGym是一個在瀏覽器運行的輕量行動模擬環境,以結構化JSON表示完整環境狀態,聚焦互動真實性而非複製專有後端。平台讓狀態可讀、可寫、可快照與分叉,並以確定性判定取代易錯的視覺大模型評分,支援低資源下的大規模並行訓練。
深度分析
Claw-Anything 提出一個面向始終在線個人助理的新評測框架,擴大代理能觀測與操作的數位範圍。此基準結合三大維度:長期活動紀錄、互相依存的後端服務,以及跨裝置的 GUI 與 CLI 互動;並以 LLM 模擬器與自動化資料管線大規模生成場景。實驗發現,即便是最先進的閉源模型,在此環境下成功率遠低於既有基準;
深度分析
ARC-AGI-3要求代理在陌生回合式環境中靠互動發現規則與勝條。本文提出AERA三階段架構:EXPLORE/VERIFY/PLAN,以信念熵為探索門檻並用預算平衡速度與深度。實驗指出公開25場可被非智慧策略通過,而私有55場競賽提交達到RHAE=0.30,凸顯基準集的判別限制。
深度分析
城市表徵學習試圖把異質的城市觀測資料壓縮為可重用的空間嵌入,以支援不同下游任務與未來城市基礎模型。CityRep 提出一套統一可延伸的評測基準,透過空間單元對齊模組、區塊式空間切分,以及跨八座城市、八項任務的多樣任務組合,來衡量表示的跨情境泛化能力。實驗顯示:隨機切分會高估模型表現;
深度分析
知識圖譜經常不完整,對多個自由變數的存在性一階查詢(EFO_k)要求對元組進行聯合排序,卻因笛卡兒候選空間指數成長而難以擴展。
深度分析
自動化代理能直接造成資料庫更動、退款與付款等副作用。本研究提出精算行為介面(AAI),以每次副作用為單位做事前定價與準備金門檻,並用AuthorityFrontier量化不同準備金下釋放的代理權限。跨四個實驗場域顯示低準備金普遍拒絕,中等準備金逐步釋放,各域呈現不同的精算幾何。
深度分析
本研究在受控的檢索增強生成(RAG)環境中,探討哪些內容因子會讓來源在AI答案引擎輸出中被優先引用。研究以兩文件對決的實驗設計,把兩個候選來源同時注入模型上下文,並在六款大型語言模型上執行252,000次試驗,檢驗18項可控內容變數(含主題匹配、完整性、可信度、可讀性、競爭性與時效性)。
深度分析
2025年以來,商用與開源的程式化AI代理迅速擴散。ClaudeCode與OpenClaw等工具讓代理能主動存取資料、長時間執行並協同子代理。結果是開發效率激增,同時帶來資安與治理風險,可能重塑工作與開發生態。並催生治理與工具化挑戰。引發政策與業界討論
深度分析
在對話型助理從被動到主動的轉向下,ProActor提出以時機敏感強化學習優化任務排程。它以自動化跨域標註生成多元可行觸發時窗、設計衡量時機與動作一致性的指標,並用階段感知複合回報與GRPO進行對話回合級優化。實驗顯示能顯著改善觸發時機同時維持動作一致性。同時提出ART-F訓練框架以降低資源門檻,支援低位元量化與LoRA後訓練。
深度分析
研究指出製造業正進入一種新範式,基礎模型驅動的自主代理將成為生產協調的主要機制。這些代理能以開放語彙解讀目標、展開跨期規劃、呼叫機台與軟體並在代理間協商,同時維持記憶與可供人為監督。主要影響包括協調性認知被自動化,帶來勞動結構變動與國際競爭布局改寫。
深度分析
本研究提出KCoT框架,將Chain-of-Thought於文字屬性圖上視作以k-means為核心的聚類式推理。透過語義判別提示與結構導向對齊,模型在推理過程中以反覆的分配與中心更新來調整節點表示。實驗於多個標準資料集顯示較現有方法穩定提升效果並增進可解釋性。