深度分析 PopuLoRA:以LoRA族群共演化與權重演化實現可驗證回報的後訓練 PopuLoRA在可驗證回報(RLVR)的後訓練場景,引入教師與學生的LoRA適配器族群:教師負責生成題目、學生在程式驗證器下求解,並以跨族群的TrueSkill交互評分把「難度」轉為族群信號。作者設計一組針對LoRA權重空間的突變與交配算子,可在秒級產生同秩子代,作為人口式訓練(PBT)的替換步驟;