https://arxiv.org/abs/2205.12410
AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large Language Models (Yaqing Wang, Subhabrata Mukherjee, Xiaodong Liu, Jing Gao, Ahmed Hassan Awadallah, Jianfeng Gao)
adapter finetuning에서 adapter를 moe로 확장. 그런데 특별한 gating 없이 랜덤하게 expert를 선택해서 학습하고 추론 시점에서는 expert weight를 averaging 해서 사용합니다. 뭔가 장대한 dropout 쪽에 가깝네요.
#moe #adapter