https://arxiv.org/abs/2002.11296
Sparse Sinkhorn Attention (Yi Tay, Dara Bahri, Liu Yang, Donald Metzler, Da-Cheng Juan)
attention을 sparse하게 만들기. local attention은 원거리 관계를 모델링하지 못하니까 시퀀스를 블럭 단위로 쪼갠 다음 블럭들을 정렬해서 순서를 바꾼 다음 바뀐 순서 내에서 local attention을 한다는 아이디어. 해싱 다음엔 소팅!
#attention #sparse_attention