Skip to content

Latest commit

 

History

History
5 lines (3 loc) · 399 Bytes

200707 Do Transformers Need Deep Long-Range Memory.md

File metadata and controls

5 lines (3 loc) · 399 Bytes

https://arxiv.org/abs/2007.03356

Do Transformers Need Deep Long-Range Memory (Jack W. Rae, Ali Razavi)

트랜스포머-XL에는 모든 레이어에 long range attention이 들어가는데 반드시 그럴 필요는 없지 않을까? 일부 레이어만 long range attention을 사용하면 속도가 빨라질 뿐 아니라 성능도 오히려 더 나아질 수 있음. #transformer #lm #attention