https://github.com/Ying1123/FlexGen https://github.com/Ying1123/FlexGen/blob/main/docs/paper.pdf

off-loading으로 175B 수준의 LLM을 T4 레벨의 GPU로 추론하기. 이전이라면 굳이 off-loading 까지 써가면서 해야하는가 하는 생각이었는데 최근에는 일정 수준의 레이턴시만 보장할 수 있으면 이런 방법으로 스루풋을 끌어올리는 것도 괜찮은 전략이 아닐까 하는 생각이 드네요.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230222 FlexGen.md

230222 FlexGen.md

Files

230222 FlexGen.md

Latest commit

History

230222 FlexGen.md

File metadata and controls