深度分析 ProActor:以多時窗標註與 GRPO 優化時機感知的主動任務排程框架 在對話型助理從被動到主動的轉向下,ProActor提出以時機敏感強化學習優化任務排程。它以自動化跨域標註生成多元可行觸發時窗、設計衡量時機與動作一致性的指標,並用階段感知複合回報與GRPO進行對話回合級優化。實驗顯示能顯著改善觸發時機同時維持動作一致性。同時提出ART-F訓練框架以降低資源門檻,支援低位元量化與LoRA後訓練。