LoRA適配器 - Agents Report

深度分析

PopuLoRA：以LoRA族群共演化與權重演化實現可驗證回報的後訓練

PopuLoRA在可驗證回報（RLVR）的後訓練場景，引入教師與學生的LoRA適配器族群：教師負責生成題目、學生在程式驗證器下求解，並以跨族群的TrueSkill交互評分把「難度」轉為族群信號。作者設計一組針對LoRA權重空間的突變與交配算子，可在秒級產生同秩子代，作為人口式訓練（PBT）的替換步驟；