关于reduce_buffer占用过多显存

我仿照qwen2的方式量化了qwne2.5vl 32b,但是我发现在加载的时候占用了大概40G左右的显存，事实上在QuantizedLinear中的reduce_buffer占用了过多的显存，它存储的是matmul之后的int32结果为什么不能在运行时申请，我发现vllm并没有这样的问题

![Image](https://github.com/user-attachments/assets/fc5ea15a-726a-4462-ad65-c51ad20d6f8c)

![Image](https://github.com/user-attachments/assets/ebeff517-07ff-40c5-9d9a-9d8756bfc098)
第一张图中的vllm并没有提前申请reduce_buffer,并且这种情况下的显存占用是正常的