https://arxiv.org/abs/2306.14048
H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models (Zhenyu Zhang, Ying Sheng, Tianyi Zhou, Tianlong Chen, Lianmin Zheng, Ruisi Cai, Zhao Song, Yuandong Tian, Christopher Ré, Clark Barrett, Zhangyang Wang, Beidi Chen)
key-value 캐시에서 attention weight가 크게 발생하는 key/value를 위주로 캐시를 유지하는 방식으로 캐시 크기를 고정시켜 메모리를 절감하고, 배치 크기를 향상시켜 throughput을 향상시키는 방법이군요. multi query attention도 그렇고 key-value 캐시를 효율화하는 것이 중요한 포인트네요.
#efficiency