https://arxiv.org/abs/2105.00572
Larger-Scale Transformers for Multilingual Masked Language Modeling (Naman Goyal, Jingfei Du, Myle Ott, Giri Anantharaman, Alexis Conneau)
왕창 큰(10B) multilingual masked lm. 큰 모델을 많은 데이터에 학습시킨 것이 요지라 그런지 논문이 심플합니다.
#mlm #multilingual #scale