https://arxiv.org/abs/2303.09752
CoLT5: Faster Long-Range Transformers with Conditional Computation (Joshua Ainslie, Tao Lei, Michiel de Jong, Santiago Ontañón, Siddhartha Brahma, Yury Zemlyanskiy, David Uthus, Mandy Guo, James Lee-Thorp, Yi Tay, Yun-Hsuan Sung, Sumit Sanghai)
다들 32K context length의 비법을 알아내려 하는 시점에 구글 리서치에서 한 사례가 나왔군요. LongT5 기반인데 (https://arxiv.org/abs/2112.07916) local attention 기반의 lightweight transformer + moe 스타일의 라우팅으로 소수 임베딩을 추출한 다음 그에 대한 heavyweight transformer 조합이군요. 저도 여러모로 long range 문제에 대해서는 local attention이 자연스럽지 않나 하는 생각을 하게 되는데...아직 증거가 부족한 것 같긴 하네요.
#efficient_attention