我按照环境装了教程,发现Qwen3-4B是可以训练的,但3.5会有很多环境问题: 1.如图,在启动命令之后就会显示如下问题 <img width="838" height="356" alt="Image" src="https://github.com/user-attachments/assets/63429661-91c9-4865-a5c5-f8789c0f7d2f" /> 2.如图,只训了一轮就有明显的梯度爆炸,如果训到第二轮grad_norm就直接是千万量级甚至nan <img width="907" height="70" alt="Image" src="https://github.com/user-attachments/assets/2b86fe77-2cc1-42fb-aef2-45d69497f0d1" /> 请问如何解决呢
我按照环境装了教程,发现Qwen3-4B是可以训练的,但3.5会有很多环境问题:
1.如图,在启动命令之后就会显示如下问题
2.如图,只训了一轮就有明显的梯度爆炸,如果训到第二轮grad_norm就直接是千万量级甚至nan