多代理強化學習 多代理強化學習框架 Hide-and-Shill:結合 GRPO 與資訊成本偵測 DeFi 操盤 去中心化金融崛起下社群話語能驅動代幣價格波動本研究提出Hide-and-Shill多代理強化學習框架模擬推手追隨者與偵測器以代幣價格變化為市場回報並納入注意力成本採用GRPO穩定稀疏獎勵學習提升協調性操盤偵測效能並對即時監管與市場透明度具實務意義