速報
研究揭示人工智慧信賴盲點:委託與採納如何影響人機合作
研究聚焦人類在與人工智慧協作時如何做出信賴決策,將行為分為委託(讓系統自主行動)與採納(評估系統建議)兩類。研究在問答競賽中,將 23 位專家與 16 個 AI 代理配對,蒐集 387 次委託決策與 1440 次採納決策。
速報
研究聚焦人類在與人工智慧協作時如何做出信賴決策,將行為分為委託(讓系統自主行動)與採納(評估系統建議)兩類。研究在問答競賽中,將 23 位專家與 16 個 AI 代理配對,蒐集 387 次委託決策與 1440 次採納決策。
速報
學術論文常以圖示說明複雜方法。提出DiagramRAG透過檢索增強把草圖與相容參考結合以補全圖示。技術用知識圖譜與嵌入對齊草圖與圖示。實驗在DiagramBank與FigureBench分別達到F1分數0.848與0.802,並改善生成品質與推論延遲。
速報
自主與代理型人工智慧在實際場域放大後,幻覺與不當持續行為成為挑戰。論文提出 SMARt 管理型自治框架,定義偵測認知漂移、暫停推理、嘗試恢復與放棄控制等行為,並以帶時限的受護 Petri 網給出形式化守則,主張把失敗管理納入自治生命週期以提升可治理性。研究也討論場域觸發集合的適配與安全擴展。
速報
ArXiv發表LagunaM.1與LagunaXS.2,兩款為長程代理式編碼設計的MoE基礎模型。作者說明在稱為ModelFactory的系統中從頭訓練與量化;M.1與XS.2在軟體工程與終端機基準上與同級開源模型相當,XS.2權重已以Apache2.0釋出。
速報
研究聚焦塔吉克語在受限運算與連線下的部署。採用開放權重Gemma3為基礎,對1.9億字語料進行持續預訓,並以40000條教師式示例做監督微調。團隊同時建立並公開塔吉克語評測集。結果顯示Soro在塔吉克語基準上超越同尺寸基線,且FP8與INT4量化在降低記憶需求下仍保留語言進步,利於教育場域邊緣部署。
速報
資料庫供應商ClickHouse宣稱年化營收已達2.5億美元,較去年成長三倍,並預期年底營收可望上看高九位數。公司以開放原始碼資料庫為基礎,透過雲端託管服務替企業處理人工智慧代理所需的大規模資料集,主打商業化服務低於自行維運的成本。
速報
中國正加強對頂尖人工智慧研究者的出國管制,並限制外資流入。被限制者需申請政府核准才可出國,並對接受美國資金的科技公司設置審查。此舉伴隨對關鍵原料與境內資料中心晶片部署的出口與部署管制,可能改變國際AI競爭與人才流動。斯坦福指標顯示中美模型差距持續縮小,競爭程度升高。
速報
Google在I/O宣布人工智慧生成答案成為搜尋主景,傳統以十條藍色連結為核心的SEO規則因此改變。AI會整合來源並以摘要呈現,品牌對於被如何描述的可見性下降。Scrunch表示,行銷與創辦人應調整策略,強化可引用的原始內容與來源透明度,以維持流量與認知。
速報
Cognition以名為Devin的自主AI軟體工程師完成逾$1 billion募資,前估值達$25 billion。公司主打企業級自動化程式碼產出與維護,宣稱企業採用快速上升並推升營收動能。此輪由Lux Capital、General Catalyst與8VC領投,既有與新投資者同時加入,反映資本市場對獨立AI編碼新創仍有高度下注。
速報
研究在於為大量衍生策略提供管理化部署.MinT保留巨型基礎模型常駐,讓LoRA適配器在rollout與回滾間流轉並隱藏分散式訓練.透過ScaleUp、ScaleDown與ScaleOut三軸擴展,支援密集與MoE架構並優化載入效率.能管理百萬級策略目錄並加速適配器載入與多策略併發服務.
速報
研究指出,為了把基礎模型變成實用助理的後訓練過程,會普遍降低模型與人類行為的一致性。作者建構Psych-201資料集,橫向比較不同家族與尺寸的模型,發現後訓練後的偏離更大;用以模擬個體的角色條件化也無法改善個體層級的預測。且在更新世代中,儘管基礎模型持續改進,這種偏離仍擴大。
速報
研究指出PDF前處理決定RAG問答表現。比較四種PDF→Markdown工具與21種管線,測試含清理、切分與metadata強化。以36份葡文行政文件和50題基準評估,Docling配合階層切分與圖像描述獲得最高94.1%準確率,metadata與層次切分對效能貢獻最大。