https://arxiv.org/abs/2110.08529

Sharpness-Aware Minimization Improves Language Model Generalization (Dara Bahri, Hossein Mobahi, Yi Tay)

sam을 lm에 써봤군요. [[210603 When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations]]에서 유의미한 향상이 있었으니 여기서도 의미있을 수 있다는 것은 자연스럽긴 하네요. swad 같은 경우도 고려해볼만하겠네요.

#lm #regularization

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

211016 Sharpness-Aware Minimization Improves Language Model Generalization.md

211016 Sharpness-Aware Minimization Improves Language Model Generalization.md

Files

211016 Sharpness-Aware Minimization Improves Language Model Generalization.md

Latest commit

History

211016 Sharpness-Aware Minimization Improves Language Model Generalization.md

File metadata and controls