速報
擾動歸因揭示:LLM微調策略如何改變程式規範的解釋行為
本研究針對大型語言模型在自動化程式規範任務的可解釋性進行比較性實驗。作者以擾動式歸因分析檢視不同微調策略,包括完整微調(FFT)、參數高效率的LoRA與量化LoRA,並比較多種模型規模對解釋行為的影響。結果顯示完整微調會產生統計上顯著且更集中的歸因模式;
速報
本研究針對大型語言模型在自動化程式規範任務的可解釋性進行比較性實驗。作者以擾動式歸因分析檢視不同微調策略,包括完整微調(FFT)、參數高效率的LoRA與量化LoRA,並比較多種模型規模對解釋行為的影響。結果顯示完整微調會產生統計上顯著且更集中的歸因模式;
速報
研究聚焦在可微參數化的非線性流形上進行函數近似,指出自然梯度以切線空間生成系的Gram矩陣做為預條件,實現函數空間的局部最優更新;但在模型非線性或損失條件不佳時仍可能導致非最佳方向。本文提出將經典慣性動力方法(如Heavy‑Ball與Nesterov)自然化於自然梯度框架,示範可改善學習過程。
速報
為便於學者逐詞檢視大型語言模型生成文本,研究提出LLMbench作為比對工作臺。該工具並列兩模型回應,提供機率熱圖、詞彙差異、語氣與結構四種疊層分析,並有溫度、提示敏感度等多種模式,讓逐詞機率結構可視化。研究主張對生成式模型的對數機率資料是人文社會領域重要研讀資源。
速報
Vercel 宣布一宗安全事件,攻擊路徑疑為一個被妥協的第三方人工智慧工具,其 Google Workspace OAuth 應用疑遭波及。駭客據稱已在網路上張貼並試圖販售部分被盜資料,內容包括員工姓名、電子郵件與活動時戳。
速報
背景:Cerebras向美國提交上市申請,先前因阿布達比G42投資遭聯邦審查曾撤回。該公司以超大規模AI晶片加速訓練與推論,並與AWS及OpenAI合作。2025年營收5.1億美元,IPO擬於五月中旬展開,募資額未公開。執行長表示已從競爭對手手中拿下快速推論業務。
速報
Google Research 推出了開源的時間序列預測基礎模型 TimesFM。該模型採用 decoder-only 架構,最新 2.5 版本將參數縮減至 2 億個,並將上下文長度提升至 16k,同時支援連續分位數預測。此技術讓開發者能更高效地處理複雜的時間序列數據,並已整合至 BigQuery ML 等 Google 產品中,大幅降低了預測模型的開發門檻。