增加grpo多次工具调用训练 #3503

woshixiaobai2019 · 2025-03-14T15:04:54Z

test_grpo_tool.py:训练测试脚本
math_tool.py:测试的工具，定义新运算，接口主要是判断是否继续和给格式奖励，还有online的result输入

相关数据集也放在目录中，比较混乱，主要还是修改gpro_trainer.py

GRPO args需要新增参数:
is_reward_tool_call:是否累加计算每个tool_call的格式奖励，但应该设置上限，否则可能会学到无限调用，但不输出正确答案。
tool_call_weight:tool_call_format奖励的权重

Jintao-Huang · 2025-03-15T03:28:17Z

数据集可以放在modelscope上，然后使用model_id进行使用嘛

然后最外层目录的文件放置在examples/train/grpo中单读建立个文件夹，然后放置在里面，然后写给文档（最佳实践）来介绍一下不

Jintao-Huang · 2025-03-15T03:29:35Z

pip install pre-commit

pre-commit run --all-files

lint过一下，会进行代码的整理

woshixiaobai2019 · 2025-03-15T04:03:36Z

pip install pre-commit

pre-commit run --all-files
lint过一下，会进行代码的整理

好的

woshixiaobai2019 · 2025-03-15T06:52:19Z

把数据集上传到了modelscope，然后新增一个最佳实践多轮工具调用实践

Jintao-Huang · 2025-03-17T02:23:08Z

examples/train/rft/rft.py

        sample_cmd = (f'{conda_prefix} CUDA_VISIBLE_DEVICES={device} swift sample '
                      f'--model {model} --model_type {model_type} '
-                      f'--dataset {" ".join(dataset)} '
+                      f'--dataset {'


这里有语法问题，请检查一下

Jintao-Huang · 2025-03-17T02:23:17Z

scripts/benchmark/exp_utils.py

            envs = deepcopy(runtime.get('env', {}))
            envs.update(os.environ)
-            logger.info(f'Running cmd: {runtime["running_cmd"]}, env: {runtime.get("env", {})}')
+            logger.info(f'Running cmd: {runtime['running_cmd']}, env: {runtime.get('env', {})}')


zsxm1998 · 2025-03-19T08:27:26Z

期待调用工具的GRPO支持

增加grpo多次工具调用训练

2b91a31

重构代码

472926d

Jintao-Huang reviewed Mar 17, 2025

View reviewed changes

Your Name added 5 commits March 17, 2025 11:01

重构代码

dc54f8d

重构代码

a2c1be0

重构代码

b537398

重构代码

0f1ca05

修复语法错误

d2125f4

woshixiaobai2019 closed this by deleting the head repository Jul 9, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

增加grpo多次工具调用训练 #3503

增加grpo多次工具调用训练 #3503

Uh oh!

woshixiaobai2019 commented Mar 14, 2025

Uh oh!

Jintao-Huang commented Mar 15, 2025

Uh oh!

Jintao-Huang commented Mar 15, 2025

Uh oh!

woshixiaobai2019 commented Mar 15, 2025

Uh oh!

woshixiaobai2019 commented Mar 15, 2025

Uh oh!

Jintao-Huang Mar 17, 2025

Uh oh!

Jintao-Huang Mar 17, 2025

Uh oh!

zsxm1998 commented Mar 19, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

增加grpo多次工具调用训练 #3503

增加grpo多次工具调用训练 #3503

Uh oh!

Conversation

woshixiaobai2019 commented Mar 14, 2025

Uh oh!

Jintao-Huang commented Mar 15, 2025

Uh oh!

Jintao-Huang commented Mar 15, 2025

Uh oh!

woshixiaobai2019 commented Mar 15, 2025

Uh oh!

woshixiaobai2019 commented Mar 15, 2025

Uh oh!

Jintao-Huang Mar 17, 2025

Choose a reason for hiding this comment

Uh oh!

Jintao-Huang Mar 17, 2025

Choose a reason for hiding this comment

Uh oh!

zsxm1998 commented Mar 19, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants