速報
拉馬克式遺傳在機體與控制共優化中的條件性優勢
團隊研究機體與控制器共同優化的耦合問題。將形態優化視為演化,控制器視為終身學習,並以拉馬克式遺傳移轉學得參數。在虛擬軟體機器人上以貝氏優化與強化學習驗證,發現拉馬克式僅在環境改變同時具衝突且不可預測時劣於達爾文式;加入環境感測能恢復其優勢,幫助控制泛化。
速報
團隊研究機體與控制器共同優化的耦合問題。將形態優化視為演化,控制器視為終身學習,並以拉馬克式遺傳移轉學得參數。在虛擬軟體機器人上以貝氏優化與強化學習驗證,發現拉馬克式僅在環境改變同時具衝突且不可預測時劣於達爾文式;加入環境感測能恢復其優勢,幫助控制泛化。
速報
理解多人視訊社會互動需解析細微非語言訊號。研究提出GRASP資料集,將注視、指向手勢與其組合轉為290K問答並分類,並以Social Grounding Reward做為學習訊號,引導模型推理互動參與者,實驗呈現於GRASP-Bench的績效提升。
速報
研究發現概念啟動向量(CAV)與TCAV測試具高度隨機性。作者推導主要CAV變種的分布,指出標準TCAV分數依賴不連續指示函數,導致變異不衰減。提出α‑TCAV,用參數化平滑函數取代指示符,建立機率化框架並提出具體調參建議以改善效率與校準。
速報
大型語言模型訓練仰賴上千GPU集群,研發與除錯難以在生產規模重現。PrismLLM以切片化構建高保真執行圖,捕捉計算、通訊與依賴。採混合模擬:部分ranks執行原始程式,其他以虛擬參與者回放。實驗顯示迭代時間誤差約0.58%,峰值GPU記憶體誤差低於0.01%,能以極少實體GPU模擬至8192顆。
速報
現有科學設計評估只看終點忽略學習軌跡。本研究提出LEAPBench一套55項任務以最佳至今曲線下面積(AUC)衡量軌跡並以經典貝式優化及文獻審核為參照。結果顯示改為軌跡評分後在相同截點下53%任務改變最佳模型判斷且LLM未勝過貝式基準。離線強化學習以此指標作獎勵在保留任務中有表現提升。
速報
大型語言模型在程式碼生成時常遭遇靜態錯誤,導致無法編譯而阻礙後續測試流程。Hydra 提出非同步檢查與檢查點回滾機制,讓檢查可與生成同時進行,並在發現錯誤時只回滾到錯誤相關的檢查點以進行局部修復,避免重生成與重檢查。
速報
機率性流行病預測對公共衛生至關重要,但長期仰賴專家手工建模,限制了擴展與快速應變。研究提出一套自動化系統,採用大型語言模型(LLM)引導的樹狀搜尋,迭代生成、評估與最佳化可執行預測程式碼,並以自動化審查維持科學結構。
速報
研究指出大型語言模型在法律推理上可能受訓練資料污染扭曲。作者設計污染偵測流程與專門測試集,比較純模型與把法條轉為形式表示、交由符號推理器處理的混合架構。結果顯示污染會抬高評估成績,而神經符號框架在未見文件上更穩健且泛化較佳。此研究對法律人工智慧評估方法帶來重要提醒。
速報
本研究實證檢驗以大語言模型(LLM)量化使用者狀態的心理計量可靠性。研究團隊採用複製性評估流程,針對 GPT-4o audio、Gemini 2.0 Flash 與 Gemini 2.5 Flash 三款雙模模型,測試 213 項指標的重測一致性,並比較個別分數與彙整後的穩定度。
速報
研究主張以元認知作為人工智慧設計原則。系統自我監控狀態,並根據問題難度與錯誤成本謹慎配置資源;此作法結合資源理性與心理學的元認知策略,可改善學習效率與安全性。作者並以聯邦學習案例示範應用,並提供一個可供社群實驗的軟體框架。論文也指出將這些策略整合到人工智慧設計仍有理論與實作上的挑戰。
速報
現有模擬基準與訓練集重疊,弱化泛化檢測。RoboLab在高擬真模擬中結合人類與大型語言模型生成場景,推出RoboLab-120包含視覺程序關聯三軸與多層次難度,並量化真實策略在受控擾動下的效能與敏感度,揭示先進模型仍存在顯著差距。加速評估任務通用性的可擴展工具集。
速報
背景:Transformer在某些任務受限於計算複雜度上限。方法:提出Matrix-to-Matrix RNN(M²RNN),採用矩陣隱藏態與非線性狀態轉移,並透過狀態擴增利用張量核心。結果:在混合架構與長上下文測試上展現更佳泛化與困惑度改善。