https://arxiv.org/abs/2204.06745
GPT-NeoX-20B: An Open-Source Autoregressive Language Model (Sid Black, Stella Biderman, Eric Hallahan, Quentin Anthony, Leo Gao, Laurence Golding, Horace He, Connor Leahy, Kyle McDonell, Jason Phang, Michael Pieler, USVSN Sai Prashanth, Shivanshu Purohit, Laria Reynolds, Jonathan Tow, Ben Wang, Samuel Weinbach)
eleutherai 사람들의 20B 모델. Pile에 대해 학습시켰네요. 96개 GPU를 사용했고 rotary pe나 parallel attention + ffn 같은 트릭들이 들어갔습니다. 공개되어있는 모델 중에서는 가장 강력한 모델인 것 같긴 하네요.
#lm