時間推理 - Agents Report

深度分析

本研究提出「讀出—中介角度」作為量化線性探針（probe）與模型實際因果運算間距離的指標。以日曆日期的持續時間推理為案例，比較傳統 sin/cos Ridge 探針與 Distributed Alignment Search（DAS）所發現的子空間，並以 Haar 隨機基準檢驗角度分佈。

深度分析

研究指出，視訊語言模型在空間資訊缺失時無法捕捉純時間模式。作者以全噪聲影片序列建立SpookyBench，測試顯示人類達98%正確率，模型卻多為0%。此差距凸顯模型過度依賴畫面特徵，需重新思考時間處理架構。SpookyBench徹底剝離空間線索，預示未來AI需時間感知模組。

多代理大型語言模型

研究指出，從縱向電子健康紀錄中精準估計癌症風險具挑戰性。TrajOnco 以多代理大型語言模型與長期記憶架構，對序列化臨床事件進行時間推理，產出患者摘要與風險分數。實驗在 15 種癌症的病例對照中，零樣本 AUROC 達 0.64‑0.80，與監督式模型表現相當，且提升時間推理解釋性。