https://arxiv.org/abs/2205.12410

AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large Language Models (Yaqing Wang, Subhabrata Mukherjee, Xiaodong Liu, Jing Gao, Ahmed Hassan Awadallah, Jianfeng Gao)

adapter finetuning에서 adapter를 moe로 확장. 그런데 특별한 gating 없이 랜덤하게 expert를 선택해서 학습하고 추론 시점에서는 expert weight를 averaging 해서 사용합니다. 뭔가 장대한 dropout 쪽에 가깝네요.

#moe #adapter

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

220524 AdaMix.md

220524 AdaMix.md

Files

220524 AdaMix.md

Latest commit

History

220524 AdaMix.md

File metadata and controls