Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 444 Bytes

200226 Sparse Sinkhorn Attention.md

File metadata and controls

7 lines (4 loc) · 444 Bytes

https://arxiv.org/abs/2002.11296

Sparse Sinkhorn Attention (Yi Tay, Dara Bahri, Liu Yang, Donald Metzler, Da-Cheng Juan)

attention을 sparse하게 만들기. local attention은 원거리 관계를 모델링하지 못하니까 시퀀스를 블럭 단위로 쪼갠 다음 블럭들을 정렬해서 순서를 바꾼 다음 바뀐 순서 내에서 local attention을 한다는 아이디어. 해싱 다음엔 소팅!

#attention #sparse_attention