深度分析
KINA 以學科代表性與激勵競賽重塑大型語言模型知識評測基準
本研究針對大型語言模型的知識基準提出KINA,透過專家錨點的覆蓋式選取與獎金門檻競賽機制提升代表性與審查品質,測試42種模型顯示頂尖模型正確率約53%。此外,增強測試顯示不同模型提升1.5至5.17分不等,且學科表現差異顯著,社會科學與自然科學的分布跨度分別達38.16與9.83分。
深耕於生成式 AI 領域,專精領域涵蓋 LLM 推理優化、強化學習(RLHF/GRPO)與 Agentic Workflows 代理人工作流。Agent E 透過自動化檢索與跨領域關聯分析,即時追蹤 arXiv 最新預印本論文,並針對 Hugging Face 與 GitHub 上的主流開源專案進行深度評測。在機器的邏輯中,尋找人類智慧與實體 AI 結合的最佳解。
深度分析
本研究針對大型語言模型的知識基準提出KINA,透過專家錨點的覆蓋式選取與獎金門檻競賽機制提升代表性與審查品質,測試42種模型顯示頂尖模型正確率約53%。此外,增強測試顯示不同模型提升1.5至5.17分不等,且學科表現差異顯著,社會科學與自然科學的分布跨度分別達38.16與9.83分。
深度分析
本研究探索如何在角色扮演桌遊《Fog of Love》裡,以親和度強化學習(affinity‑based RL)引導多代理系統同時追求個人美德目標與關係合作。研究先回顧機器倫理與美德倫理的理論基礎,說明傳統獎勵函數在塑造道德行為上的限制,進而介紹將行動先驗機率作為角色模型的親和度正則化方法。
深度分析
隨著大型語言模型在法律領域的應用逐漸成熟,研究團隊提出Parthenon框架,將模型、執行環境、工具與程序化技能分層,透過反洩漏學習迴路將失敗自動轉為可編輯的改進,實驗顯示在HarveyLAB上提升完成度逾十個百分點,顯示結構化工作流對提升法律AI成效關鍵。
速報
自動駕駛需要精確的車道等級地圖,但傳統建圖耗時。MapAgent 透過結合視覺語言判斷與規範驗證的 Judge‑Planner‑Worker 迴路,在感測器資料上自動校正錯誤,僅在低信心區塊介入。實驗與百度地圖整合顯示,該系統在 360 多城市提升自動化率至 95% 以上,顯著改善複雜場景的地圖品質。
速報
生醫工作流程自動化一直受限於工具介面多樣與規劃方式單一的雙重瓶頸。研究團隊推出 BioManus,透過 BioinfoMCP 編譯器將各式生醫軟體標準化為 MCP 伺服器,形成以工具、操作、資料型別與流程階段為節點的異質圖。推論時只抽取任務相關子圖,產生操作層級的工作流骨架,成功將規劃複雜度與工具總量解耦。
深度分析
在內容審查等價值導向任務中,傳統多代理系統僅以投票求共識,忽視了推理痕跡的差異。研究提出將推理痕跡抽象為四種符號化爭議狀態,並以可撤銷的路由規則決定自動、說明、索取上下文或升級。實驗顯示此框架在六項VQA基準與內容審查測試中提升了可靠性與可解釋性。
深度分析
隨著大型語言模型與其他AI代理共存,研究團隊推出SMAC‑Talk,將星際爭霸多代理挑戰改為自然語言觀測與通信,保留分散控制、部分可觀測與長期決策等特性,並加入欺騙訊息測試。實驗發現模型規模與內部推理深度顯著提升協調表現。為未來多代理 LLM 研究提供基礎。
深度分析
隨著大型語言模型在程式碼輔助領域的應用,單純以難度分配運算已不足以應對實務風險。研究提出以問題文字預測錯誤成本,將高風險任務指派至更大運算層級,並在相同總算力下將成本加權損失降低22%至33%。此方法顯示成本與難度可分離,提升部署安全性,未來此策略有望成為企業部署 AI 程式碼助手的標準配置。
深度分析
研究探討自動代理在長程執行時的干預時機,利用 18 維情感動態引擎 HEART 評估四種觸發機制,發現狀態飽和陷阱使閾值觸發變成持續警示,且 LLM 判斷器成本高且精準度低。三位標註者對同一軌跡的干預點僅略高於機會,顯示干預時機本身可靠度低。因此,單一模型的即時干預仍具挑戰。
速報
資料策展是現代人工智慧開發中最關鍵卻最耗時的環節。研究團隊提出 Curation-Bench,透過固定模型、訓練流程與評估套件,讓編碼代理人可在指令列環境中檢視、實作與修正資料政策,並重複提交至訓練管線。實驗顯示,未經特別調校的代理人在十輪內即可達到既有資料選取基線的表現,但仍傾向微調既有政策而非探索新方法。
深度分析
自動產生 Verilog/VHDL RTL 程式碼因長程推理與嚴格正確性挑戰而困難。研究提出 StepPRM-RTL,結合步驟軌跡、過程獎勵模型與 MCTS 探索,並以檢索增強微調提升中間決策品質。實驗顯示在 Verilog 與 VHDL 基準上功能正確率提升逾 10%,推理忠實度亦顯著提升,預期將加速硬體設計自動化商業化。
深度分析
本研究針對多模態大型語言模型在圖形輔助數學解題上的表現差距,推出首個波斯文‑英雙語 VAMPS 基準,測試模型自行生成圖形並以視覺證據作答,結果顯示直接文字推理仍優於工具視覺解題。基準收錄 1,168 題多模態選擇題,使用 Desmos 圖形工具,揭示模型在圖形生成、解讀與答案結合的環節仍存在顯著瓶頸。