速報 - Agents Report | 代理人報告 (Page 37)

速報

BoostTaxo：提升式大模型實作的零樣本分類法誘導

分類法誘導是組織概念為可解讀語意階層的核心任務。BoostTaxo是一個提升式大模型框架，透過粗到細的父節點辨識流程，結合檢索增強的定義精練、混合候選父節點選取與候選評分，最後以結構感知的分數校準強化拓撲可靠性。公開資料集評測顯示其表現優越或相當。

速報

有限法律人格治理自主式人工智慧：兩層公司架構新提案

研究指出，自主式人工智慧會造成現行法律框架下難以歸責的責任落差。論文提出以有限法律人格作為功能性治理工具，採二層公司架構：讓人工智慧透過受限目的的營運公司執行，並嵌入人類控制的母公司結構中運作。此安排強調透明度、可追溯的問責機制與結構性可逆，並對人工智慧的意識或道德地位保持中立。

速報

IdeaForge：以知識圖譜與多代理整合多方法的專利生成框架

當前AI輔助創新常採單一方法導致推理碎片化。IdeaForge提出以知識圖譜為核心的多代理框架整合多種創新法。專家代理將矛盾、發明原則與使用者需求結構化寫入持久化資料庫。系統以圖關聯發現跨方法支持之匯聚主張，標示高信心創新候選。下游專利起草代理則由匯聚子圖生成結構化草案。實驗顯示相比單一方法，圖導向合成提升多樣性與可追溯性。

速報

CHAL：以可反駁論證為核心的多代理信念優化框架

多代理辯論是提升大型語言模型推理的路徑。本研究提出CHAL，將可反駁論證作為信念優化引擎，採用圖式信念結構與梯度導向修正。實驗顯示裁決者價值體系主導信念軌跡，理事會多樣性能精煉信念並產出可審計的信念物件。以利透明評估與人類監督。並擴展到廣泛領域具有可解釋性的信念工件。

速報

MAVIC：修正巨集動作價值以提升指令遵循的多代理強化學習方法

多代理強化學習在實務場景常被外部自然語言指令打斷，且指令可能與長期目標衝突。研究提出Macro-Action Value Correction for Instruction Compliance（MAVIC），在指令邊界修正Bellman回傳，透過調整進入指令的目標並還原當前目標下的延續價值，避免因指令干擾產生值估計不一致。

速報

QAM：用 Adjoint Matching 穩定訓練擴散／流匹配政策的 Q-learning

連續動作強化學習在用參數化Q函數優化複雜政策時常遇數值不穩。研究提出QAM，採用伴隨匹配將評論器對動作的梯度轉為逐步可優化目標。此做法避免穿透多步去噪過程反向傳播帶來的數值不穩定，並維持政策的表現力與無偏性。配合時間差分備份學習，QAM在稀疏回饋的困難任務中表現優於既有方法。

速報

OASIS：以文化為根基的大型多模態問答資料集

面對多模態模型在文化與日常知識上的限制，研究提出OASIS資料集。它採用EverydayMMQA框架產生圖像、文字與語音問答，並以人工逐階驗證。資料含近九十萬張真實影像、逾一千四百八十萬組問答等，旨在評估模型的語境與文化推理能力。基準測試揭露多款模型尚有明顯差距。

速報

GUARD：把政府倫理指引變成可測試題的合規診斷工具

大型語言模型應用擴大，伴隨有害回應風險與監管壓力。研究提出GUARD（Guideline Upholding Test through Adaptive Role-play and Jailbreak Diagnostics），將政府發布的高階倫理指引自動化轉為具體違規測試題，藉由角色扮演檢驗模型回應是否違規。

速報

NeurIPS 2025：聯邦學習資料集與公平性基準設計要點

研究針對聯邦學習實驗提出資料集與評測框架。說明資料來源、客戶端取樣、是否含敏感屬性及跨域模擬設定。列出公平性衡量（人口差異、equalized odds、demographic parity）與輸出格式，並提供個別與全域模型的統計與評估流程，利於比較演算法在不同客戶端分布下之效能與公平性表現。

速報

REI-Bench：揭露含糊指稱對LLM機器人任務規劃的衝擊與情境覺察修正

研究指出人類指令含糊導致機器人任務規劃失效。本文提出以語用學建模的REI-Bench基準，模擬具上下文依賴的指稱表達。並採用任務導向的情境覺察，生成明確可執行指令以供規劃器使用。實驗顯示含糊指稱可使成功率下降高達36.9%，而任務導向情境覺察可顯著提升成功率並降低物件遺漏。

速報

Harsanyi–Shapley 值在多方隨機遊戲的延伸：HS-S 與 Coco-S 的比較

研究聚焦可轉移效用的多方隨機遊戲，代理可用側付促成個人理性合作。基於Harsanyi–Shapley值提出HS-S與Coco-S兩種延伸：HS-S聚合動態聯盟對立威脅力；Coco-S以逐狀態HS貝爾曼算子固定點定義。兩者在雙人遊戲一致，但超過兩人時可能分歧，並提出可估算的抽樣方法與實驗比較。

速報

預訓練語言模型讓知識圖譜實體向量更泛化：鏈結預測與跨任務遷移表現提升

知識圖譜常有缺漏,研究用文字描述學習實體向量以支援鏈結推斷與檢索。採用預訓練語言模型以鏈結預測目標學習向量表徵,並在未見實體的誘導式鏈結預測、實體分類與實體導向檢索三項任務上驗證泛化能力。結果顯示鏈結預測MRR平均提升22%,分類準確度平均增16%,檢索NDCG@10最高增8.8%。