深度分析
線性探針 vs DAS:以讀出—中介角度量化時間推理的因果子空間
本研究提出「讀出—中介角度」作為量化線性探針(probe)與模型實際因果運算間距離的指標。以日曆日期的持續時間推理為案例,比較傳統 sin/cos Ridge 探針與 Distributed Alignment Search(DAS)所發現的子空間,並以 Haar 隨機基準檢驗角度分佈。
深度分析
本研究提出「讀出—中介角度」作為量化線性探針(probe)與模型實際因果運算間距離的指標。以日曆日期的持續時間推理為案例,比較傳統 sin/cos Ridge 探針與 Distributed Alignment Search(DAS)所發現的子空間,並以 Haar 隨機基準檢驗角度分佈。
深度分析
研究指出,視訊語言模型在空間資訊缺失時無法捕捉純時間模式。作者以全噪聲影片序列建立SpookyBench,測試顯示人類達98%正確率,模型卻多為0%。此差距凸顯模型過度依賴畫面特徵,需重新思考時間處理架構。SpookyBench徹底剝離空間線索,預示未來AI需時間感知模組。
多代理大型語言模型
研究指出,從縱向電子健康紀錄中精準估計癌症風險具挑戰性。TrajOnco 以多代理大型語言模型與長期記憶架構,對序列化臨床事件進行時間推理,產出患者摘要與風險分數。實驗在 15 種癌症的病例對照中,零樣本 AUROC 達 0.64‑0.80,與監督式模型表現相當,且提升時間推理解釋性。