深度分析 LANTERN:結合 LLM、自動機與語義嵌入的多源神經符號轉移框架 LANTERN 提出一套針對強化學習中非馬可夫、長期目標任務的多源神經符號轉移框架。核心做法包括:用大型語言模型從自然語言任務描述生成確定性自動機(DFA)、建立語義嵌入空間以整合多個來源策略、以及以時序差分誤差與語義不確定性為基礎的自適應教師—學生門控。