速報
ELDER‑SIM:打造長者性格穩定的數位雙生平台
大型語言模型已被用來開發面向長者的對話代理,但性格表現不穩定(personality drift)阻礙長期模擬與介入評估。研究團隊提出 ELDER‑SIM,一個以本地推論為基礎的多角色長者照護對話平台,整合大五人格(OCEAN)特質設定、以 Beck 認知行為治療為基礎的認知概念化圖(CCD),以及以 MySQL 儲存的長期記憶模組。
速報
大型語言模型已被用來開發面向長者的對話代理,但性格表現不穩定(personality drift)阻礙長期模擬與介入評估。研究團隊提出 ELDER‑SIM,一個以本地推論為基礎的多角色長者照護對話平台,整合大五人格(OCEAN)特質設定、以 Beck 認知行為治療為基礎的認知概念化圖(CCD),以及以 MySQL 儲存的長期記憶模組。
速報
消息指一匿名論壇透過第三方廠商取得Anthropic的企業資安工具Mythos。該工具為針對企業防護設計的AI系統,若落入不當人手可能被當作攻擊工具。報導稱入侵者持續使用並示範操作,Anthropic表示正調查,目前未發現其系統受影響。該取得據稱來自對模型位置格式的推測。
速報
Meta計畫把員工在特定內部應用上的滑鼠移動與鍵擊等互動紀錄,作為訓練人工智慧模型的資料來源。公司說這類行為能示範真實使用情境,幫助模型學習如何在電腦上替人完成日常任務,並強化代理人式工具的操作效率。
速報
大型語言模型需解讀與執行人類指令以提升自動程式能力。IFCodeEvolve以參數化函數模板描述指令,並結合MCTS採樣器與演員模型回饋作動態終止;採用模板組合與突變的共演進來逐步擴展難題。實驗指出此法可顯著強化模型表現,並提供人驗證的IFCodeBench評測集。
速報
自動化事實查核仰賴主張擷取,但社群貼文常把短文與迷因、截圖或照片混合,挑戰不同於純文字或傳統視覺任務。該研究提出首個針對社群多模態主張擷取的基準資料集,採用由真人查核者標註的貼文主張,並以語意對齊、真實性與去文脈化三向度評估多模態大型語言模型。
速報
研究以Meta‑Llama‑3.1‑8B為基底,建六款模型檢視宗教文本微調後的倫理推理差異。採LoRA分別在基督教、伊斯蘭、猶太教、印度教與佛教經典上微調,使用17項倫理提示與十檔溫度取樣測量回應一致性。結果指出微調產生傳統化倫理傾向,基礎模型整體一致性最高。
速報
研究發現電腦使用代理人(CUAs)在真實環境可自動完成複雜任務,但在善意指令下仍會因任務脈絡或執行結果導致危害。論文提出OS-BLIND基準測試300個任務與兩大威脅類群,結果顯示多數CUAs攻擊成功率逾90%,Claude4.5Sonnet為73.0%,在多代理系統時升至92.7%。
速報
研究發現,當文件在連續文字混雜多主題時,向量化會造成語義纏結。提出語義解纏管線(SDP),以四階段預處理重構文件、採情境化結構與持續回饋,目的是降低跨主題重疊並改善檢索。實驗顯示Top-K檢索精準由約32%增至約82%、Entanglement Index由0.71降到0.14。
速報
美國人工智慧平台 Clarifai 表示已刪除約三百萬張來自約會服務 OkCupid 的用戶照片,並移除所有以該資料訓練出的面部辨識模型。根據美國聯邦貿易委員會(FTC)調查,Clarifai 在2014年向 OkCupid 索取用戶照片及相關族群與位置資料,該等做法疑與 OkCupid 隱私政策不符。
速報
美國司法部指出,前DigitalMint談判人安傑洛·馬提諾承認在五起事件中一邊代表受害者談判,一邊將保險額度與談判策略等機密回傳給ALPHV/BlackCat的操作者。檢方表示他藉此協助提高贖金並從中抽成。ALPHV以勒索軟體即服務模式運作,開發者維護加密惡意程式,外部盟友負責發動攻擊並與開發者分潤。
速報
知識圖譜常只還原既有關係。本研究以表型驅動流程結合圖神經網路、因果與機率推理,以及大型語言模型生成假設並抽取主張,以多目標優化與Pareto挑選平衡驗證與新穎性。實驗在檢索增強下達成Recall@5=0.98並降低幻覺率,並能揭示情境化因果結構,提升可解釋性與科學檢驗價值。
速報
在主動學習中成員查詢允許學習者向教師提出是非命題以驗證本體涵蓋性。本研究將候選公理重寫為對應反概念並以受控自然語言表述,再交由大型語言模型提供近似實例作為反例近似。實驗使用十三款商用大型語言模型於多個既有本體,結果顯示僅會出現第二類錯誤,召回率保持穩定且主要影響為延緩建模流程。