semantic-embeddings - Agents Report

深度分析

LANTERN 提出一套針對強化學習中非馬可夫、長期目標任務的多源神經符號轉移框架。核心做法包括：用大型語言模型從自然語言任務描述生成確定性自動機（DFA）、建立語義嵌入空間以整合多個來源策略、以及以時序差分誤差與語義不確定性為基礎的自適應教師—學生門控。