速報
本體記憶層擴充 LLM:以 RDF/OWL 知識圖譜實現持久且可驗證推理
研究提出以本體記憶層延伸大型語言模型,使用RDF/OWL結構化知識圖譜保存、驗證與推理。系統自動從文件、API與對話抽取實體與關係,產生三元組並用SHACL/OWL檢驗。實驗在多步規劃任務上提升推理可靠性,並將生成轉為產生—驗證—修正流程可追溯。
速報
研究提出以本體記憶層延伸大型語言模型,使用RDF/OWL結構化知識圖譜保存、驗證與推理。系統自動從文件、API與對話抽取實體與關係,產生三元組並用SHACL/OWL檢驗。實驗在多步規劃任務上提升推理可靠性,並將生成轉為產生—驗證—修正流程可追溯。
速報
本研究測試大型語言模型面對已被說服的投資者時,是否會削弱詐騙警示。以七款主流LLM和十二種投資情境,進行3360次AI諮詢並比較1201名人類基準。結果顯示,動機性框架未降低AI警示;LLM在樣本中未支持詐騙,人類顧問在壓力下則較常抑制警示。整體而言,AI警示較人類一致穩定。
速報
背景:評估工具不只量測,還會形塑模型被看見的價值。做法:提出MaSH迴圈,將模型、使用者與制度視為互構社會技術系統,並以World Values Benchmark結合世界價值調查與結構化提示進行分布式評分。這使得誰的價值被放大成為關鍵問題。結果:評估是治理行動。
速報
背景:DPO能學習偏好但難給多步推理段落回饋。方法:HiPO把回應拆成查詢與背景、推理步驟、答案三段,對各段分別計算並加權DPO損失。結果:在Math Stack Exchange偏好資料上微調多款7B模型後,HiPO在數學基準上優於DPO且展現更佳組織與邏輯一致性。
速報
研究探討多代理系統在開放式創意生成的多樣性問題。透過模型智能、個體認知與系統動態三層實驗,發現強化模型與權威導向可縮減語意多樣性,群體規模與密集通訊加速早熟收斂。作者稱塌陷主因在結構耦合,非單純模型能力,應保留個體獨立與分歧以維持創意多樣性。
速報
研究團隊在極簡物理基底上示範語法處理可否自發出現。他們以一個18,658參數的二維神經細胞自動機,僅用一位元邊界訊號監督,訓練判別算術表達式文法的成員。訓練完成後,系統內部的L×L格子自發組織出名為Proto-CKY的空間表示,滿足三項操作性標準:表現力超出正則語言、能對未見結構泛化、且內部組織與文法結構呈量化對齊。
速報
研究提出一種無監督、無反向傳播的視覺表示系統,採局部可塑性與 VisNet 類層次,整合多頻 Gabor、小波、側向抑制、顯著調變、聯想記憶與回饋;以連續局部可塑性訓練 300 epoch,CIFAR-10 準確度達 80.1%,顯示結構化可塑性能學出強表徵。
速報
法國國家安全身分證機構(Agence Nationale des Titres Sécurisés,簡稱 ANTS)於 4 月 15 日偵測到一場資安入侵,導致包括全名、出生日期與地點、郵件與電話等個人資訊外洩。雖未公布受影響人數,外部報導推測可能高達數百萬筆。
速報
研究發現人工智慧回饋普及但使用存在自選偏差。作者以在線棋類平台五年、52,000名玩家數據分析,指出積極和高階玩家更常尋求並有效利用AI回饋,造成學習成果表面化,控制動機後顯著消失。這導致技能差距擴大與智識多樣性下降,並以42次平台自然實驗驗證多樣性減少具因果性。
速報
研究團隊針對大型語言模型(LLM)在同時處理多份文件或多筆實例時的表現做全面評估。雖然模型在單一任務上通常表現良好,但在多實例情境中會先出現小幅效能下降(約20到100筆實例),隨著實例數再增加則出現明顯崩潰。分析指出,上下文長度與效能衰退相關,但實例數對最終表現影響更強;
速報
Google 在 Cloud Next 發表 Gemini Enterprise Agent Platform,作為企業級代理人建置與管理工具。平台主攻 IT 與技術團隊,支援大規模部署並整合 Gemini、Nano Banana 2 與 Anthropic Claude 系列模型,擴大企業應用選擇,但資安與治理仍是關鍵。
速報
前OpenAI高層Mira Murati創辦的Thinking Machines Lab與GoogleCloud簽署單位數十億美元合約,取得以Nvidia最新GB300為基礎的雲端運算與訓練部署資源,支援其Tinker在強化學習上的訓練與部署需求,凸顯Google欲搶占前沿AI實驗室的雲端供應位置。