想尝试LoRA版本,但似乎复现出来的三种强化学习方案RL,OPD,Combined和论文报告的全参模型相差很大
想尝试LoRA版本,但似乎复现出来的三种强化学习方案RL,OPD,Combined和论文报告的全参模型相差很大