https://arxiv.org/abs/2004.04037
DynaBERT: Dynamic BERT with Adaptive Width and Depth (Lu Hou, Zhiqi Huang, Lifeng Shang, Xin Jiang, Xiao Chen, Qun Liu)
bert 깎기. 일단 네트워크를 헤드/뉴런의 중요도 순으로 재배열한 다음 각 width/height에 해당하는 subnetwork에 대해서 distillation. bert 너무 괴롭히는 거 아님!?
#bert #distillation #pruning