Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 557 Bytes

230204 Representation Deficiency in Masked Language Modeling.md

File metadata and controls

7 lines (4 loc) · 557 Bytes

https://arxiv.org/abs/2302.02060

Representation Deficiency in Masked Language Modeling (Yu Meng, Jitin Krishnan, Sinong Wang, Qifan Wang, Yuning Mao, Han Fang, Marjan Ghazvininejad, Jiawei Han, Luke Zettlemoyer)

mlm에서 mask 토큰을 쓰면 mask 토큰에 대해 상당한 표현력을 쓰기 때문에 손해가 발생하고, 그러니 mask 토큰 없는 objective를 쓰면 성능 향상이 있다는 보고. 이런 문제를 태클하는 건 좀 오랜만에 보는 것이긴 하네요. (다들 autoregressive 모델을 하러 갔다 보니.)

#mlm