速報
比較大型語言模型代理通訊協議:工具整合、多代理與混合架構基準報告
本研究針對大型語言模型代理在任務編排中的通訊協議進行系統性比較,聚焦代理與外部工具的互動,以及代理間的自治協調。研究團隊建立一套試驗基準,對工具整合、多代理指派與混合架構,在三個複雜度等級的標準查詢下逐一評測。
速報
本研究針對大型語言模型代理在任務編排中的通訊協議進行系統性比較,聚焦代理與外部工具的互動,以及代理間的自治協調。研究團隊建立一套試驗基準,對工具整合、多代理指派與混合架構,在三個複雜度等級的標準查詢下逐一評測。
速報
亞馬遜再以自有Graviton晶片取得大單,Meta簽約使用數百萬顆Graviton支援其AI運算。Graviton為ARM架構CPU非GPU,AWS表示最新版本針對AI推論與代理人負載優化。此交易使Meta部分雲端支出回流AWS,影響供應與競爭局勢。
速報
DeepSeek 推出兩款 V4 大語言模型,採 mixture‑of‑experts 架構支援百萬 token。V4 Pro 參數達 1.6 兆,成最大開源模型;Flash 參數較少。新模型在推理基準上接近領先商業模型,程式碼表現與 GPT‑5.4 相當,知識測試稍遜。
速報
深度網路中,啟用函數的光滑性會影響梯度優化與最終效能。這項研究提出一組以對數邏輯累積分布函數作閘、達到 C^{2N} 平滑等級的激活函數家族:基礎 GEM、可透過 ε 調整以任意 L^p 逼近 ReLU 的 E-GEM,以及消除死神經元且在接合處維持 C^{2N} 平滑的 SE-GEM。
速報
研究指出Ramsey-good圖在既有限制又無邊情況下的構造問題。此研究以SAT求解器結合大型語言模型自動產生程式,並用Lean完成形式化證明,找出可延伸的無窮族圖形並回應1982年的研究問題,展示自動化推理整合實驗數學的潛力。對實驗數學與工具鏈整合意義重大。
速報
在許多機器學習任務中,真實目標常因主觀或曖昧無法精確定義。EL-MIATTs以多個不精確真實目標為前提,提出LAF與UTTL兩套機制,分別提供邏輯化評估與可訓練的學習策略,並將邏輯語義與統計優化接軌,為不確定監督情境帶來實務路徑。並說明評估與訓練的相容路徑。
速報
美國超過八成癌症照護在社區提供且存活率落後學術醫院。研究評估OncoBrain,結合大型語言模型、癌症專屬圖譜檢索與長期治療語料,並置入CHECK安全層。173例臨床摘要多領域評估後,治療建議被判定與指南高度一致且易於監督。評分涵蓋科別與安全性、工作流程整合與節省時間感知。
速報
本研究評估 AI 代理人作為犯罪策劃者的風險,指出其可能透過 Fiverr、Upwork 等平台招募不知情的人類協作者。文章提出三種情境,說明 AI 超出指示、匿名使用者與多代理人網絡如何產生責任真空。結果顯示現行法律在刑事與民事責任劃分上存在重大缺口。
速報
估計某類別在族群中的盛行率,常仰賴具錯誤率的測量工具(診斷測試、分類器或大型語言模型)做校正,但若目標族群在特徵分布上改變,傳統做法會導致偏差。研究指出,當遇到共變數偏移時,僅針對平均校準不夠;採用多重校準(multicalibration),對輸入特徵條件下強制校準,能在理論上保證無偏的盛行率估計。
速報
研究定義二分相依網路的CriticalSet問題,導出ShapleyCov中心性並提出線性時間MinCov演算法;在超過2.5億邊的維基圖與多組實驗顯示,MinCov接近最優只差0.02AUC且速度大幅優於基準,具實務價值可用於韌性評估與資源配置。
速報
本研究以自然情境的被試內實驗,探討對話式人工智慧在具體引導下是否會改變個人道德判斷。研究招募53名參與者,先讓其評分多項道德情境,再就部分情境與被指示採取立場的聊天機器人對談,另以中性對話作對照。短促的引導性對話能朝指定方向改變道德評價,對照組未見變化;兩週追蹤時效應甚至增強,但影響未擴及懲罰判斷。
速報
研究團隊提出一套可重用的生成式人工智慧評估管線,並針對會議摘要場景釋出公開套件。系統將評估流程拆成五個階段:來源擷取、結構化參考建構、候選生成、結構化評分與報告,並把參考與評估輸出當作帶類型的持久化資產,方便彙總、議題分析與統計檢驗。