速報 - Agents Report | 代理人報告 (Page 44)

速報

autoresearch：自動化單卡 nanochat 訓練的 AI 代理人平台

autoresearch 是一個讓 AI 代理人在單卡 nanochat 訓練上自動實驗的開源專案。代理人會修改 train.py、執行 5 分鐘的訓練，並以 val_bpb 指標判斷是否改進。人類僅編寫 program.md 指令，整體流程加速模型優化，展現 AI 自主研究的潛力。

速報

OpenAI 推出 GPT‑Realtime‑2、Realtime‑Translate 與 Realtime‑Whisper 即時語音能力

OpenAI在其API推出多項即時語音智慧功能：GPT‑Realtime‑2以GPT‑5級推理強化語音對話；GPT‑Realtime‑Translate提供同步翻譯，理解七十餘種輸入並輸出十三種語言；GPT‑Realtime‑Whisper支援即時語音轉文字，並內建防護機制阻止濫用。

速報

駭客被駭：PCPJack 鎖定 TeamPCP 佔領的雲端系統

資安業者揭露罕見事件：駭客入侵已遭其他駭客掌控的系統。入侵者將原始駭客逐出並移除其工具，隨即在雲端部署類似自我複製的程式以跨平台擴散。他們同時竊取多種憑證與敏感資料，並將竊得資料回傳至自身基礎設施。攻擊鎖定被TeamPCP侵佔的資源，凸顯駭客間攻守升高。

速報

Moonshot AI以Kimi開放權重LLM募資20億美元，估值達200億美元

北京AI實驗室MoonshotAI以開放權重Kimi大型語言模型為主。Kimi在程式碼基準與分發平台表現亮眼，帶動付費訂閱與API成長。創辦人為前Meta與GoogleBrain研究員，4月年經常性營收逾2億美元，公司完成約20億美元募資、估值約200億美元。

速報

H^2-EMV：讓人形機器人學會選擇性記憶與語言化遺忘

機器人在回應「我把鑰匙放哪？」或說明任務失敗原因時，需口語化過往經驗，但持續多模態感知會讓情節記憶暴增，影響儲存與即時查詢。H^2-EMV提出透過使用者互動學習要記什麼：系統以分層的情節記憶架構儲存資訊，採語言模型評估相關性執行選擇性遺忘，並根據使用者回饋更新自然語言規則。

速報

Agentic Publication（代理人式發表）：把論文變成互動式知識系統

本文說明「Agentic Publication」概念，一種由大型語言模型驅動的互動式科學發表架構，用來回應科學文獻指數成長的挑戰。架構透過檢索增強生成（RAG）將結構化資料（如知識圖、書目元資料）與非結構化內容（文字、多媒體）整合，並以多代理驗證提升內容可靠性。

速報

原子化事實核查（atomic fact‑checking）顯著提升臨床對 AI 建議的信任

這項隨機試驗比較原子化事實核查與傳統可解釋性方法對臨床信任的影響。研究把AI建議分解為可逐一驗證且連結原始指引的聲明，結果發現原子化事實核查將表達信任的臨床人員比例從26.9%提高到66.5%，傳統透明機制則呈劑量反應改善，效果量介於0.25到0.50之間。

速報

大型語言模型與安全困境實驗：用AI重現國際關係策略機制

研究以大型語言模型為實驗對象，在重複安全困境中檢驗多極化、有限時間視野與通訊可否重現國際關係的典型機制；方法透明可複製；結果顯示多極化提升衝突可能、有限視野導致逆向推理下的瓦解，通訊則透過示警與互惠降低衝突。並能觀察模型內部推理與公開訊息。

速報

KAHMs：用核仿射殼機替代線上Transformer查詢編碼，顯著提速又可解釋

研究指出在固定教師(transformer)框架下，線上查詢編碼成為主要成本。提出KernelAffíneHullMachines(KAHMs)，在RKHS估計原型混合權重並以正規化最小均方精修原型，將詞彙特徵映射到凍結語意空間。實驗顯示能重建教師空間並降低查詢延遲。

速報

具身人工智慧安全：從感知到互動的全面風險盤點

具身人工智慧將感知、認知、規劃與互動整合於能在實體世界行動的代理人，面對不確定感測、不完全知識與動態人機互動，安全風險更直接且關鍵。本綜述系統化檢視超過400篇研究，提出多層次分類法，回顧從感知、認知到規劃與行動的攻擊與防禦，包括對抗、後門、越獄與硬體層面，並整理偵測、安全訓練、穩健推論與風險感知互動等防護策略。

速報

SymptomAI：對話式人工智慧完成全流程問診與差異診斷實測

ArXiv 團隊透過 Fitbit 應用部署 SymptomAI，讓 13,917 名真實穿戴裝置使用者隨機與五款對話式代理人互動，取得日常症狀對話與疾病分布。1,228 人回報臨床診斷，517 筆對話由臨床小組耗時評註。

速報

Agentic-imodels：為人工智慧代理設計的可模擬回歸模型

研究團隊提出「Agentic-imodels」，一個能自動演化、供人工智慧代理讀取與模擬的資料科學工具循環。系統生成一組與 scikit-learn 相容的回歸器，並同時優化預測效能與以大型語言模型（LLM）評分的「代理可解釋性」指標。該指標透過一系列 LLM 測試驗證模型文字化描述是否可被 LLM 單靠文字模擬行為。