Skip to content

关于reduce_buffer占用过多显存 #34

@191220042

Description

@191220042

我仿照qwen2的方式量化了qwne2.5vl 32b,但是我发现在加载的时候占用了大概40G左右的显存,事实上在QuantizedLinear中的reduce_buffer占用了过多的显存,它存储的是matmul之后的int32结果为什么不能在运行时申请,我发现vllm并没有这样的问题

Image

Image
第一张图中的vllm并没有提前申请reduce_buffer,并且这种情况下的显存占用是正常的

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions