大語言模型 - Agents Report

深度分析

中國AI雙重攻勢：Moonshot Kimi K3與阿里巴巴Qwen3.8開源模型挑戰美國領先地位

中國AI公司Moonshot與阿里巴巴接連發布新模型Kimi K3和Qwen3.8，號稱性能可與OpenAI和Anthropic頂尖模型匹敵，且採取開源策略。兩者參數規模分別達2.8兆與2.4兆，強調低成本高效能，進一步加劇美中AI競爭，挑戰美國晶片出口管制效果。

深度分析

大語言模型（LLM）中的集體經驗主義與偽理性認知：風險與實踐審計對策

隨著大語言模型被廣泛用於知識獲取與自動化，使用者傾向於直接獲取結構化答案而跳過實踐過程。本研究提出「集體經驗主義」與「偽理性認知」概念，分析 AI 如何將人類經驗壓縮成看似理性的輸出，導致使用者產生理解的錯覺。文中建議建立實踐審計框架，透過驗證與反向質詢將 AI 產出回歸實踐，以避免認知迴圈與記憶污染風險。

深度分析

AlphaCast：結合人類智慧與大語言模型的互動式時間序列預測框架

時間序列預測在決策中關鍵，AlphaCast將其轉為類似專家多回合推理流程，結合特徵、知識庫與案例支援LLM，實驗證明其整體表現優於既有基線。

A-MBER

A-MBER 基準測試：評估大模型跨對話的「情感記憶」與脈絡理解能力

AI 助手若要真正擬人化，必須能理解使用者的情感演變。新發表的 A-MBER 基準測試專注於評估 AI 是否能將長期記憶與當前情感識別結合，要求模型從多場對話歷史中找出關鍵證據來解釋使用者現在的心情，填補了現有情感分析與長文本記憶測試之間的空白。