https://arxiv.org/abs/2107.11906

H-Transformer-1D: Fast One-Dimensional Hierarchical Attention for Sequences (Zhenhai Zhu, Radu Soricut)

hierarchical low rank attention. 구조적으로는 local attention에 off diagonal을 low rank attention으로 채워넣은 느낌이네요. low rank attention은 avg pooling을 거친 시퀀스를 사용해서 계산한다는 느낌입니다. 실험의 다양성이 좀 아쉽긴 하네요.

#efficient_attention

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

210725 H-Transformer-1D.md

210725 H-Transformer-1D.md

Files

210725 H-Transformer-1D.md

Latest commit

History

210725 H-Transformer-1D.md

File metadata and controls