Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 485 Bytes

220524 AdaMix.md

File metadata and controls

7 lines (4 loc) · 485 Bytes

https://arxiv.org/abs/2205.12410

AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large Language Models (Yaqing Wang, Subhabrata Mukherjee, Xiaodong Liu, Jing Gao, Ahmed Hassan Awadallah, Jianfeng Gao)

adapter finetuning에서 adapter를 moe로 확장. 그런데 특별한 gating 없이 랜덤하게 expert를 선택해서 학습하고 추론 시점에서는 expert weight를 averaging 해서 사용합니다. 뭔가 장대한 dropout 쪽에 가깝네요.

#moe #adapter