我在复现 Personal Agent Optimization / GSM8K 实验时,想确认论文中 Student / Teacher 两个 personalization scenario 的口径:
论文报告的 Student / Teacher 分数,是同一个 policy 经过 mixed training 后分别评测得到的,还是分别训练 student-only / teacher-only 两个 policy 后得到的?
我看到仓库中 gsm8k_personal_agent.py 默认似乎是 --scenario mixed,所以目前理解是前者。想请作者确认一下,谢谢!
我在复现 Personal Agent Optimization / GSM8K 实验时,想确认论文中 Student / Teacher 两个 personalization scenario 的口径:
论文报告的 Student / Teacher 分数,是同一个 policy 经过 mixed training 后分别评测得到的,还是分别训练 student-only / teacher-only 两个 policy 后得到的?
我看到仓库中 gsm8k_personal_agent.py 默认似乎是 --scenario mixed,所以目前理解是前者。想请作者确认一下,谢谢!