https://github.com/Ying1123/FlexGen https://github.com/Ying1123/FlexGen/blob/main/docs/paper.pdf
off-loading으로 175B 수준의 LLM을 T4 레벨의 GPU로 추론하기. 이전이라면 굳이 off-loading 까지 써가면서 해야하는가 하는 생각이었는데 최근에는 일정 수준의 레이턴시만 보장할 수 있으면 이런 방법으로 스루풋을 끌어올리는 것도 괜찮은 전략이 아닐까 하는 생각이 드네요.