https://arxiv.org/abs/2106.13112
VOLO: Vision Outlooker for Visual Recognition (Li Yuan, Qibin Hou, Zihang Jiang, Jiashi Feng, Shuicheng Yan)
[[210323 Scaling Local Self-Attention for Parameter Efficient Visual Backbones]] halo transformer와 비슷한데 query-key attention 없이 query-rel pos attention만으로 태클했다는 느낌이네요. fold/unfold를 사용하기 때문에 실용적인 속도가 궁금한데...이 부분은 한 번 테스트해봐야겠습니다.
#vit #efficient_attention