邊注意力 - Agents Report

深度分析

這篇論文提出 NICO‑TSP，一套針對旅行推銷員問題（TSP）的神經改進框架。它把目前路徑直接表示為長度為 n 的邊代幣（edge tokens）、以邊為單位用注意力機制評分 2‑opt 移動，並以模仿學習（短期最佳軌跡）先行預訓，再以無 critic 的群體強化學習做長期調校。