https://arxiv.org/abs/2006.04768
Linformer: Self-Attention with Linear Complexity (Sinong Wang, Belinda Z. Li, Madian Khabsa, Han Fang, Hao Ma)
linear attention. attention 행렬이 low rank인 것을 활용해 key, value 행렬의 길이 방향을 linear 레이어로 축소시킴. 시퀀스 길이 축소가 의미있다는 것을 보여주는 결과 2
#efficient_attention